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Titel: Verfahren zum Obersetzen von Programmen fur rekon- 

figurierbare Architekturen 

1; Einleitang 

Die vorliegende Erf indung betrifft das Oberbegrif flich Bean- 
spruchte. Damit befafit sich die vorliegende Erf indung mit der 
Frage, wie rekohfigurierbare Architekturen optimal verwendet 
werden konnen und insbesondere damit, wie Anweisungen in einer 
gegebenen Hochsprache in rekonf igurierbaren Architekturen op- 
timal zur Ausfuhrung gebracht werden konnen. 

Urn in sog. Hochsprachen geschriebene Anweisungen zur Handha- . 
bung von Daten (Programme) in einer jeweiligen, zur Datenhand- 
habung verwendeten Architektur zur Ausftihrung zu bringen, sind 
sog. Compiler bekannt, die die Anweisungen der Hochsprache in 
an die verwendet e Architektur besser angepafite Anweisungen 
libersetzen. Compiler, die dabei hochparallele Architekturen 
besonders untersttitzen, sind demgemaB parallelisierende Compi- 
ler . 

Parallelisierende Compiler nach dem Stand der Technik verwen- 
den fur gewohnlich spezielle Konstrukte wie Semaphore und/oder 
andere Verfahren zur Synchronisation. Dabei werden typischer- 
weise technologiespezif ische Verfahren verwendet. Bekannte 
Verfahren sind nicht geeignet, urn funktional spezif izierte Ar- 
chitekturen mit dem zugehorigen Zeitverhalten und imperativ 
spezif izierte Algorithem zu kombinieren. Daher lief em die 
verwendeten Methoden nur in Spezialf alien zuf riedenstellende 
Losungen . 

ERSATZBLATT (REGEL 26) 
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Compiler fur rekonf igurierbare Architektuf en, insbesondere f tir 
rekonf igurierbaren Prozessoren, verwenden ftir gewohhlich Ma- 
kros, die speziell fur die be^immte rekonf igurierbare Hard- 
ware erstellt wurden 7 wobei ftir die Erstellung der Makros zu- 
meist Hardwarebeschreibuhgssp^achen vie z.B; Verilog, VHDL 
oder System-C verwendet werden. Diese Makros werden dann von 
einer gewShnlichen Hochsprache (z.B. C, C++) aus dem Programm- 
fluss heraus aufgerufen (instantiiert) / 

Compiler fur Parallelrechner sind bekannt, die auf einer grob- 
granular en St ruktur, zumeist basierend auf kompletten Funktio- 
nen oder Threads Prograramteile auf mehrere Prozessoren abbil- . 
den. 

Weiterhin sind vektorisierende Compiler bekannt, die eine 
weitgehende lineare Datenverarbeitung, wie z.B. Berechnungen 
grofier Ausdriicke in eine vektorisierte Form umwandeln und da- 
mit die Berechnung auf supers kalaren Prozessoren und Vektor- 
prozessoren (z.B. Pentium, Cray) ermoglichen. 

Vorliegend wird ein Verfahren zur automatischen Abbildung . von 
funktional oder imperativ formulierten Rechenvorschriften auf 
unterschiedliche Zieltechnologien beschrieben, insbesondere 
auf ASICs, rekonf igurierbare Bausteine (FPGAs, DPGAs, VPUs, 
ChessArray, KressArray, Chameleon, etc.; im folgenden unter 
dem Begriff VPU zusammengefaBt) , sequentielle Prozessoren 
(CISC-/RISC-CPOs, DSPs, etc.; im folgenden unter dem Begriff 
CPU zusammengefaBt) und parallele Rechnersysteme (SMP, MMP, 
etc. ) . Hingewiesen wird insbesondere in diesem Zusammenhang 
auf die folgenden Schutzrechte und Patentanmeldungen desselben 
ftnmelders: P 44 16 881.0-53, DE 197 81 412.3, DE 197 81 483.2, 
DE 196 54 846.2-53, DE 196 54 593.5-53, DE 197 04 044.6-53, 
DE 198 80 129.7, DE 198 61 088.2-53, DE 199 80 312.9, 
PCT/DE 00/01869, DE 100 36 627.9-33, DE 100 28 397.7, 
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DE 101 10 530.4, DE 101 11 014.6, PCT/EP 00/10516, 
EP 01 102 674.7, PACT 13, PACT1 7 , PACT1 8 , ' PACT2 2 , PACT24, : 
PACT25, PACT260S, PACT02, PACT04, PACT08, PACT10, PACT15, 
PACT18 (a) , PACT 27, PACT19. Difese sind hiermit zu Off enba- 
rungszwecken vollumf anglich eingegliedert . 

VPUs bestehen grundsatzlich aus einer mehrdimensionalen homo- 
genen oder inhomogenen, flachen oder hierarchischen Anordung 
(PA) von Zellen (PAEs), die beliebige Funktionen, i.b. logi- 
sche und/oder arithmetische Funktionen und/oder, Speicherfunk-. 
tionen und/oder Netzwerkfunktionen ausftihren kdnnen. Den PAEs 
ist typisch eine Ladeeinheit (CT) zugedrdnet, die die Funktion 
der PAEs durch Kdnf iguration und ggf . Rekonfiguration be- 
stimmt . 

Das Verfahren basiert auf einem abstrakten parallelen Maschi- 
nenmodell, das neben dem endlichen Automaten auch imperative 
Problemspezifikationen integriert und eine effiziente algo- 
rithmische Ableitung einer Implementierung auf unterschiedli- 
che Technologien ermdglicht. 

Folgende Compilerklassen sind nach dem Stand der Technik be- . 
kannt: 

Klassische Compiler, die hclufig S tack-Mas chineii-Code generie- 
ren und fUr sehr einfache Prozessoren geeignet waren, die im 
Wesentlichen als normale Sequenzer ausgestaltet sind. (vgl. 
N.Wirth, Compilerbau, Teubner Verlag) . 

Vektorisierender Compiler bauen weitgehend linearen Code, der 
auf spezielle Vektorrechner oder stark gepipelinte Prozessoren 
abgestimmt ist. Ursprtinglich waren diese Compiler fur Vektor- 
rechner wie CRAY verftigbar. Moderne Prozessoren wie Pentium 
benotigen aufgrund der langen Pipelinestruktur ahnliche Ver- 
fahren. Da die einzelnen Rechenschritte vektorisiert (gepipe- 
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lined) ablaufen ist der Code sehr viel effizienter. Allerdings 
bereitet der bedihgte Sprxing "Prdbleme filr die Pipeline . Daher 
ist eine Sprungvorhersage sinnvoll, die ein Sprungziel an- 
nimmt . . 1st die Annahme f alsch/ iiauss jeddch die gesamte Ver^r^- 
beiturigspipeiine geldscht werden. Mit anderen Worten ist jeder 
Sprung : ftir ; diese Compiler problematisch, eine Parallelverar- 
beitung im eigentlichen Sinn ist nicht gegeben. Sprungvorher- 
sagen und ahnliche Mechanismen erfordern einen erheblichen Zu- 
satzaufwand an Hardware. 

Grobgranulare parallele Compiler existieren im eigentlichen 
Sinne kaum, die Parallelitat wird typischerweise durch den 
Prdgrammierer odeir das Betriebs system markiert und verwaltet, 
also beipielsweise bei MMP-Computersysteme wie verscheiden IBM 
Architekturen, ASCI Red/ etc. zumeist auf Thread- Ebene durch- 
gefuhrt. Ein Thread ist ein weitgehend unabhangiger Programm- 
block oder gar ein anderes Programm. Threads sind daher grob- 
granular einfach zu parallelisieren. Die Synchronisation und 
Datenkonsistenz ist vom Prograinmierer bzw. dem Betriebssystem 
sicherzustellen. Dies ist aufwendig zu prograramieren und er- 
fordert einen wesentlichen 'Anteil der Rechenleistung eines 
Parallelrechner, Zudem ist durch diese grobe Parallelisierung 
nur ein Bruchteil der eigentlich mSglichen Parallelitat tat- 
sachtlich hutzbar. 

Feingranulare parallele (z.B. VLIW) Compiler versuchen die 
Parallelitat feingraunlar in VLIW Rechenwerke abzubilden, die 
mehrere Rechenoperationen in einem Takt parallel ausftihren 
k6nnen aber einen gemeinsamen Register satz besitzen. Ein we- 
sentliches Problem stellt dieser limitierte Registersatz dar, 
da er die Daten ftir sSmtliche Rechenoperationen bereitstellen 
muss. Zudem erschweren Datenabhangigkeiten und inkonsistente 
Lese/Schreiboperationen (LOAD/STORE) die Parallelisierung. 
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Rekonf igurierbare Prozessoren weisen eine grofie Anzahl an un- 
abhtngigen Rechenwerken auf; die typisch in: einem. Feld ahge- 
orclnet sind. Diese sind typisch riicht durch einen gemeinsamen 
Registersatz, sondern durch Bijtese miteinander verbunden. Da- 
durch las sen sich einerseits leicht Vektorrechenwerke aufbau- 
eh/ andererseits konnen auch eirifach par allele Operationen . 
durchgefuhrt werden. Durch die Busverbindungen werden entgegen 
der herkommlichen Registerkonzepte Datenabhangigkeiten aufge- 
last. 

Die Aufgabe der vorliegenden Erfindung besteht darin, Neues 
far die gewerbliche Ariwendung bereitzustellen. 

Die L5sung dieser Aufgabe wird in unabh^ngiger Form bean- 
sprucht. Bevorzugte~ AusfOhrungsf ormen finden sich in den On- 
teransprtichen . 

Es wird also vorgeschlagen f fur einen Compiler far rekonfigu- 
rierbare Prozessoren die Konzepte von vektorisierenden Compi- 
lern und parallelisierenden (z.B. VLIW) Compilern zugleich an- 
zuwenden und somit auf feingranularer Ebene zu Vektbrisieren 
und parallelisieren. 

Ein wesentlicher Vorteil besteht darin, dass der Compiler 
nicht auf eine f est vorgegebene Hardware stfuktur abbilden m 
muss f sondern die Hardwarestruktur mit dem erfindungsgemaBen- 
Verfahren so konfiguriert werden kann, dass sie optimal fur 
die Abbildung des jeweiligen compilierten Algorithmus • geeignet 
ist. 

2. Beschreibnng 

Als Grundlage zur Abarbeitung praktisch jeder Methodik zur 
Spezifizierung von Algorithmen wird der endliche Automat ge- 
nutzt. Die Struktur eines endlichen Automaten ist in Figur 1 
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abgebildet. Ein einfacher endlicher Automat zerfMllt in ein 
kombinatorisches Netz und eine Fiegisterstuf e - zum Zwischenspei- 
chern von Da ten zwischeh. deri eirizeirien Datehvefarbeiturigszy- 
kleri. 

Ein, endlicher Autbmat: fuhrt eine Anzahl rein kombinatorischer 
(also z.B. logischer und/oder arithmetischer) Datenmanipula- 
tionen aus f um danach einen stabilen Zustand zu erreichen, der 
in einem Register (sat z) reprasentiert wird. Basierend auf die- 
sera stabilen Zustand wird entschieden, welcher nSchste Zustand. 
im nachsten Verarbeitungsschritt erreicht werden soil und so- 
mit auch, welche kombinatorischen Datenmanipulationen im nach- 
sten Schritt durchgefUhrt werden sollen. 

Beispielsweise reprasentiert ein Prozessor Oder Sequenzer ei- 
nen endlichen Automaten. In einem ersten Verarbeitungsschritt 
kann eine Subtraktion von datendurchgefuhrt werden. Das Ergeb- 
nis wird gespeichert. Im nSchsten Schritt kann basierend auf 
dem Ergebnis der Subtraktion ein Sprung durchgefiihrt werden, 
der je nach Vorzeichen des Ergebnisses in eine andere Weiter- 
verarbeitung ftthrt. 

Der endliche Automat ermoglicht die Abbildurig komplexer Algo- 
rithmen auf beliebige sequentielle Maschinen, wie ill Figur 2 
abgebildet. Der dargestellte komplexe endliche Automat besteht 
aus einem komplexen kombinatorischen Netz, einem Speicher zum 
Ablegen von Daten und einem Adressgenerator zum Adressieren 
der Daten im Speicher* 

Nun kann jedes beliebige sequentielle Programm grundlegend als 
endlicher Automat interpretiert werden, wobei aber zumeist ein 
sehx grofies kombinatorisches Netz entsteht. Bei der Program- 
mierung klassischer "von Neumann n -Architekturen - also bei al- 
ien CPUs - werden daher die kombinatorischen Operationen in 
eine Folge von jeweils einzelnen einfachen, fest vorgegebenen 
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Operationen (Opcodes) auf CPU-interne Register zerlegt. Durch 
diese Zertegung ehtstehen Zustande zur Steuerung der in eihe 
Folge zerlegteh kombinatprischen Operation, die aber innerhalb 
der urspirCinglichen kombinatbrifscheri Operation per se nicht 
vorhanden sind, bzw. nicht bendtigt werden. Daher sind jedoch 
die abzuarbeitenden Zustande einer von N.etamann Maschinen 
grundsatzlich von den algorithmischen Zustanden eines kombina- 
torischen Netzes, also den Registern endlicher Automaten zu 
unterscheideh . 

Es wurde nun erkannt, dass die VPU-Technologie (wie sie im We- 
sentiichen durch einige bder alle der Schriften PACT01, 
PACT02, PACT03, PACT04V PACT05 f PACT08 f PACT10, PACT 13/ 
PACT17, PACT18, PACT22, PACT24 definiert ist, die durch Bezug- 
nahme vollumfanglich eingegliedert sind) im : Gegensatz-zu den 
starren Opcodes von CPUs ermdglicht, komplexe Instruktionen 
entsprechend eines abzubildenden Algorithmus wie in flexiblen 
Konfigurationen hineinzukompilieren. 

2.1 Arbeitsweise das Compilers 

Besonders vorteilhaft ist bei der Arbeitsweise des Compilers, 
wenn die komplexen Instruktionen derart generiert werden, daB 
diese mbglichst lange in der PAE-Matrix bhne Rekonf iguration ' 
aiisgeftlhrt wird. 

Der Compiler generiert weiterhin den endlichen Automaten be- 
vorzugt aus dem imperativen Quelltext derart, daB er der je- 
weiligen PAE-Matrix besonders gut angepasst ist, also solche 
Operationen darin vorgesehen werden, die die typisch grobgra- 
nularen Logikkreise (ALUs etc.), gegebenenfalls auch vorhande- 

-r 

ne feingranulare Elemente (FPGA-Zellen in der VPU, statemachi- 
nes etc.) besonders effizient nutzen. 
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Der corapilererzeugte endliche Automat wird dann in Konfiqura- 
tionen zerlegtl 

Das Abarbeiten (Interpretiererrt des endiichen Automaten ge- 
schxeht auf eirier VPU derart, dafi die generiert^n " Konf igura-^ 
tioneh succesive auf die : PAE-Matrix abgebildet werden und die 
Arbeitsdaten und/oder Zustande, die zwischen den Konfiguratio- 
nen zu Ubertragen sind, in Speicher abgelegt werden. Dazu kann 
das aus PACT04 bekannte Verfahren bzw. die entsprechende Ar- 
chitektur . verwendet werden . Dieser Speicher wird yom Compiler 
bestiramt beziehungsweise vorgesehen. Es reprasentiert eine 
Konfiguration dabei eine Mehrzahl von Instruktiorieh; eine Kon- 
figuration bestimmt zugleich ftir eine. Yielzahi von Takten die 
Arbeit sweise der PAE-Matrix, wahrend dieser Takte wird eine 
Vielzahl von Daten in der Matrix verarbeitet; diese stammen - 
aus einer VPU externen Quelle und/oder einem internen Speicher 
und werden an eine externe Quelle und/oder einen internen 
Speicher geschrieben. Die internen Speicher ersetzen dabei den 
Registersatz einer CPU nach dem Stand der Technik derart, dafi 
z.B. ein Register durch einen Speicher reprasentiert wird, wo- 
bei nicht ein Datenwort je Register gespeichert wird, sondern 
ein gesamter Datensatz je Speicher. 

Wesentlich kann auch sein, dafi die Daten und/oder ZustSnde der 
Verarbeitung einer ablauf enderi Konfiguration compilerbestimmt 
in die Speicher abgelegt werden und somit der nSchsten ablau- 
fenden Konfiguration zur Verfiigung stehen. 

Ein bedeutender Unterschied zu Compilern, die auf Instruk- 
tionisbasis parallelisieren, besteht somit darin, dafi das Ver- 
fahren die PAE-Matrix derart konfiguriert und rekonfiguriert, 
•dass eine konfigurierte Folge von kombiriatorischen Netzen auf 
einer VPU emuliert wird, wahrend herkoramliche Compiler gelade- 
ne Folgen von Instruktionen (Opcodes) kombinieren, wobei eine 
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Instruktion als ein kombinatorisches Netz betrachtet werden 
kahn. 

2.2 Aasfuhrtmgsbeispiel WHUiB-Sprache 

Im Fplgenden soil die Funktionswelse des Compilers anhand ei^- 
ner einfachen Sprache beispielhaft verdeutlicht werden. Dabei 
wird von einer Sprache ausgegangen, die in ihren Grundlagen 
bereits bekannt ist, wobei in einer bekannten Verof fentlichung 
[Referenz- "Doktorarbeit Armin NQckel?] jedoch lediglich, die 
Abbildung einer Funktion auf ein statisches kombinatorisches 
Netz beschrieben wird, wahrend mit def Erfinduiig nnn die Ab- 
bildung auf Konf igurationen erf olgt, die darih in einer zeitli- 
chen Reihenfolge entsprechend des Algorithmus und der sich 
wahrend der Verarbeitung ergebenden Zustande auf die PAE- 
Matrix abgebildet werden. 

Die Programmiersprache geht davon aus, dass neben einfachen 
logischen und/oder arithmetischen Verknttpfungen ein Befehl 
"WHILE" existiert, der mit folgender Syntax definiert ist: 
WHILE... 

Mogliche Konstrukte sind damit: Anweisung 

Folge von Anweisungen, 
• ' •• Schlelie 

Eine Anweisung oder eine Folge von Anweisungen ist durch das 
beschriebene Compiler-Verf ahren auf ein kombinatorisches Netz 
abbildbar. 

Figur 3a zeigt ein kombinatorisches Netz mit den dazugehoren- 
den Variablen. Dabei kann sich der Inhalt ein und derselben 
Variable (z.B. xl) von einer Stufe (0301) des Netzes zur nach 
sten (0302) andern. 
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Diese Veranderung ist beispielsweise fiir die Zuweisung 
xl : = xl + 1 ,v •- 

in Figur 3b dargestellt. 



Zur Adres$ierurig ziim Leseh cler/pperattddn^und zum Speicherft der 
Ergebnisse k5nnen nun Adressgeneratoren mit dem korabinatori- 
schen Netz der Zuweisung synchronisiert werden. Mit jeder ver- 
arbeiteten Variable werden entsprechende neue Adressen fur 
Operanden und ; Ergebnisse generiert (Figur 3c) ,. Die Art des . 
Adressgenerators ist prinzipiell beliebig und hcLngt von den 
Adressierurigsschematas der compilierten Applikation ab. 
Fiir Operanden und Ergebnisse kbnnen gemeinsame , kombinierte 
Oder vollstandig unabhSngige Adressgeneratoren implementiert 
werden. ~ * ; - - - - • 

Typischerweise werden bei der Datenverarbeitung wie im vorlie- 
genden Datenverarbeitungsmodell eine Mehrzahl von Daten inner- 
halb einer bestimmten Konfiguration der PAEs verarbeitet. Be- 
vorzugt ist der Compiler daher fttr die in vielen, wenn nicht 
den meisten Anwendungen mSglichen einfachen FIFO-Modus ausge- 
legt, der zumindest- fur die patenspeicher anwendbar ist, die 
innerhalb dieser Beschreibung zum Speichem von Daten und Zu- 
standen. der Datenverarbeitung (quasi als Ersattz eines gewohn- 
lictien Registersatzes herkommlicher CPUs) dienen. Mit anderen 
Wort en dienen Speicher der temporaren Speicherung von Varia- 
blen zwischen den Konf igurationen . Auch hier ist eine Konfigu- 
ration ahnlich einer Instruktion eines normalen Prozessors und 
die Speicher (insbesondere eine Mehrzahl) sind vergleichbar 
mit dem Registersatz eines normalen Prozessors. 



2.2.3 Folqen von Anweisungen 

Eine Folge der beispielhaften Zuweisung lafit sich wie folgt 
generieren (Figur 4a) : 
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xl := 0; 

WHILE TRUE DO " ' ' ' 

" kj := xl V 1; ' 
Diese Folge l&JBt sich nurimehir tfoittels einer Zuweisung gemafi 
2.2.1 uhd AdressgerieraLtoreh f tir Opfcraiiden und Ergebiiisse ab- ■ " 
bilden. •• - • v.." ■ 

Endliche Folgen 

Der Vollstandigkeit halber soil eine besondere Ausgestaltung 
von Folgen abseits der definierten Kohstrukte der WHILE Spra- . 
che diskutiert werden. Eine endliche Folge der beispielhaften 
Zuweisung lafit sich wie folgt generieren: 
FOR i:=l TO 10 . • • / .•: 

xl xl + 1; 

Eine derartige Folge lafit sich durch zwei Arten iraplementie- 
r en : 

a) Durch Generierung eines Addierers zur Berechnung von i ent 
sprechend des WHILE-Kohstruktes (siehe 2.2.4) und eines 
weiteren Addierers zur Berechnung von xl. Die Folge wird 
als Schleife abgebildet und iterativ berechnet (Figur 5a). 

b) Durch Auswalzen der Schleife, wodurch die Berechnung von i 
als Funktion entfallt. Die Berechnung von. xl wird i-roal in 
stantiiert und als Pipeline aufgebaut, wodurch i nacheinan 
der geschaltete Addierer entstehen (Figur 5b) . 

2.2.4 Bedingungen 

Bedingungen lassen sich mittels WHILE ausdriicken. Beispiels- 

weise: 

xl := 0; 

WHILE xl < 10 DO 
xl := xl + 1; 

Die Abbildung generiert eine zusatzliche PAE zur Verarbeitung 
des Vergleiches. Das Vergleichsergebnis wird durch ein Sta- 
tussignal reprasentiert (vgl. Trigger in PACT08) , das von den 
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die Anweisung verarbeitenden PAEs und den Adressgeneratoren 
ausgewertet wird. 

Die resultierende Abbildung ist in Figur 4b dargestellt. 

Durch die Auswertung der Bedingung (hier WHILE, 'generell uhd 
einleuchtenderweise auch. ariderq Ariweisungen wie IF; CASE rea^- 
lisierbar) wird ein Status generiert, der der nachfplgenden 
Datenverarbeitung zur Verfugung gestellt werden kann (DE 197 
04 728.9) und/oder an die CT oder eine lokale Ladesteuerung 
(DE 196 54 846.2) gesendet werden kann/ die daraus Information, 
tiber den weiteren ProgrammfluB und evtl. anstehende Rekonfigu- 
ratiorien ableitet. 

2.2.5 Grundlegendes Ver f ahren 

Entsprechend den vorherigen Verf ahren wird jedes Programm in 
ein System abgebildet, das wie folgt aufgebaut ist: 

1. Speicher far Operanden (vgl. Register einer CPU) 

2. Speicher fur Ergebnisse (vgl. Register einer CPU) 

3. Netzwerk aus a) Zuweisungen und/oder b) Vergleichen- 
Anweisungen, also Bedingungen wie z.B. IF, CASE, Schleifen 
(WHILE, FOR, REPEAT) 

4. Optionalen Adressgenerator (en) zur Ansteuerung der Speicher 
riach 1 und 2. 

2.2.6 Umgang mit Zustanden 

Es wird nun ftir die Zwecke des beschriebenen Compilers zwi- 
schen algorithmisch relevanten und irrelevanten Zustanden un- 
terschieden. Zustande werden in der VPU-Technologie far ge- 
♦wdhnlich durch Statussignale (z.B. Trigger in PACT08) und/oder 
Handshakes (z.B. RDY/ACK in PACT02) dargestellt. Generell kon- 
nen Zustande (v. a. in anderen Technologies wie IpPGAs, DPGAs, 
Chameleon-Bausteinen, Morphics, etc.) durch beliebige Signale, 
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Signalbiindel und/oder Register dargestellt werden. Das offen- 
barte Compilierverfahren kanri auch auf solctie angelegt werden , 
obwohl wesentliche Teile der Beschreibung bevorzugt auf die 
VPU fokussieren. 

Relevante Zustande sirid innethalb des Algorithmic notwendig um 
dessen korrekte Funktion zu beschreiben. Sie sind ; fOf den Al- 
gorithmus wesentlich. 

Irrelevante Zustande entstehen durch die verwendete Hardware 
und/oder die gewahlte Abbildung oder aus anderen sekundaren 
Grunden. Sie sind damit filr die Abbildung (also die Hardware) 
wesentlich. 

Lediglich die relevanten Zustande mUssen mit den Daten erhal- : 
ten werden. Daher werden diese zusainmen mit den Daten in den 
Spexchern abgelegt, da sie entweder als Ergebnis der Verarbei- 
tung mit den Daten auftraten oder als Operanden mit den Daten 
fttr den nachsten Verarbeitungszyklus notwendig sind. 

Irrelevante Zustande sind dagegen nur ortlich und/oder zeit- 
lich lokal notwendig und mtissen daher nicht gespeichert wer- 
den. 

Beispiel: 

a) Die Zustands information eines Vergleichs 1st far die weite- 
re Verarbeitung der Daten relevant, da dieser die auszufUh- 
renden Funktionen bestimmt. 

b) Angenommen f ein sequentieller Dividierer entsteht bei- 
spielsweise durch Abbildung eines Divisionsbefehles auf ei 
ne Hardware, die nur die sequentielle Division untersttitzt 
Dadurch entsteht ein Zustand, der den Rechenschritt inner- 
halb der Division kennzeichnet . Dieser Zustand ist irrele- 
vant/ da far den Algorithmus nur das Ergebnis (also die 
ausgefahrte Division) erforderlich ist. In diesem Fall wer 
den also lediglich das Ergebnis und die Zeitinformation 
(also die Verfagbarkeit) benatigt. Der Compiler unterschei 
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det solche relevante und irrelevante Zustande bevorzugt 
voneinander. 

Die Zeitinformation ist beispifeisweise in der VPU-Technologie 
nach PACT01, 02, 13 durch das RDY/ACK Handshake erhaltlich. 
Hierzu ist jedbch besohders ahzumerken, dass das Handshake • 
ebenfalls keine relevanten Zustand darstellt, da es lediglich 
die GUltigkeit der Daten signalisiert, wodurch sich wiederum 
die verbleibende relevante Information auf die Existenz giilti- 
ger Daten reduziert. 

2.2.7 Umgang mit Zeit 

In vielen Programmiersprachen, besonders in sequentiellen wie 
z.B. C, wird eine exakte zeitliche Reihenfolge implizit durch 
die Sprache vorgegeben; bei sequentiellen Programmiersprachen 
geschieht dies beispielsweise durch die Reihenfolge der ein- 
zelnen Anweisungen. Sofern dies durch die Programmier sprache 
und/oder den Algorithmus erforderlich ist, wird das Compilier- 
verfahreri so ausgeftihrt, dass sich die Zeitinformation auf 
Synchronisationsmodelle wie RDY/ACK und/oder REQ/ACK oder ein 
Time-Stamp-Verfahren nach DE 101 10 530.4 abbilden lasst; 

Mit anderen Worten wir£ die implizite Zeitinformation von ^ se- 
quentiellen Sprachen in ein Handshake Protokoll derart abge- 
bildet, dass das Handshake Protokoll (RDY/ACK- Protokoll) die 
Zeitinformation tibertragt und insbesondere die Reihenfolge der 
Zuweisungen garantiert. 

Beispielsweise wird die nachfolgende for-Schleife nur dann 
durchlaufen und iteriert, wenn die Variable inputstream je 
'Durchlauf mit einem RDY quittiert ist. Bleibt RDY aus f wird 
der Schleifendurchlauf bis zum Eintreffen von RDY angehalten. 
while TRUE 
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s :== 0 

for i:= 1 to 3 

s := s + inputstream; 

Die Eigerischaf t "der sequentiellen Sprachen f riur von der Be- 
fehlsverarbeitung g^steueft zu werden; wird somit hex der Com- 
pilierung mit dem Datenf luflprinzip, die Verarbeitung durch den 
Datenstrom, bzw. die Existenz von Daten zu steuern verbunden. 
Mit anderen Worten wird ein Befehl und/oder eine Anweisung 
(z.B. s := s + inputstream;) nur verarbeitet, wenn die Opera-. 
tion ausgefuhrt werden kann und die Daten verftlgbar sind. 

Bemerkenswert ist, dafi dieses Verf ahren gewohnlicherweise zu 
keiner Anderung der Syntax oder Semantik einer Hochsprache 
ftihrt. Es kann also vorhandener Hochsprachencode durch Neucom- 
pilierung problemfrei zur Ausftthrung auf einer VPU gebracht 
werden. 



2,2.8 Laden und Speichern von Daten 

Ftir die Grundlagen der Load/Store Operationen ist folgendes 
beachtlich. 

Die nachf olgenden Adressierungsarten werden unterschiedlich 
behandelt : 

1. externe Adressierung, also die Datentransfers mit exter- 
nen Baugruppen 

2. interne Adressierung, also die Datentransfers zwischen 
PAEs, i.b. zwischen RAM-PAEs und ALU-PAEs 

Desweiteren kann die zeitliche Entkopplung der Datenverarbei- 
: tung und dem Laden und Speichern der Daten besondere Beachtung 
finden. 
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Bustransfers werden in interne und externe Transfers zerlegt. 
bti) Externe LeSezugrif fe (Load Operation) werden sepairiert, 
in eiher mSglichen Atisftthrung auch bevorzugt in eihe separate 
kbnfiguration ubersetzt. Die Daten werden von einem externen 
Speicher in einen internen transferiertV 

bt2) Interne Zugriffe werden mit der Datenverarbeitung gekop- 
pelt, d.h. die internen Speicher (Register Operation) werden 
fxir die Datenverarbeitung gelesen, bzw. beschrieben. 

bt3) Externe Schreibzugriffe (Store Operation) werden sepa- 
riert, in eiher bevor^ugten mOgiichen Ausftihrung auch in eine 
separate kphiiguration Obersetzi:. Die Daten werden von einem 
internen Speicher in einen externen transferiert . 



Wesentlich ist, dass die btl, bt2, bt3 - also das Laden der 
Daten (Load) , das Verarbeiten der Daten (Datenverarbeitung und 
bt2) und das Schreiben der Daten (bt3) - in unterscheidliche 
Konfigurationen tibersetzt werden k6nnen und diese ggf . zu ei- 
nem unterschiedlichen Zeitpunkt ausgeftihrt werden. 

Das Verf ahren soli an dem nachfolgenden Beispiel verdeutlicht 
werden: 

function example (a/ b: integer) -> x : integer 
for i:= 1 to 100 
for j:= 1 to 100 
x[i] := a[i] * b[j] 

Die Funktion kann vom Compiler in drei Teile, bzw. Konfigura- 
tionen (subconfig) transformiert: 

>example#dload: LSdt die Daten von extern ( Speicher , Periphe- 
rie, etc.) und schreibt diese in interne Speicher. Interne 
Speicher sind mit r# und dem Naraen der urspriinglichen Variable 
gekennzeichnet . 
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example#process : Entspricht der eigentlichen Datenverarbei- 
tung. Diese liest die Daten aus internem Operanden unci 
schreibt die Ergebnisse wieder in interne Speicher. 
example#ds t ore : schreibt die Ergebnisse axis dem ihterrien Spei- 
cher nach. extern (Speicher/ Peripherie/ etc. ) . 

function example* (a, b : integer) -> x : integer 
subconfig exampletdload 
for i := 1 to 100 

r#a[i]. :« a[i] . 
for j := 1 to 100 

r#b[j] := b[j] 

subconfig exampletprocess 

for i" := 1 to 100 " " . - - . , 

for j:= 1 to 100 

r#x[i] := r#a[i] * r#b[j] 

subconfig exampletdstore 
for i := 1 to 100 
x[i] := r#x[i] 

Ein wesentlicher Effekt des Verfahrens 1st, dass anstatt i*j 
100 * 100 = 10.000 externe Zugriffe nur i+j » 100 + 100* = 200 
externe Zugriffe zum Lesen der Operanden ausgefOhrt werden. 
Diese Zugriffe sind zudem noch vollkommen linear, was die 
Transfergeschwindigkeit bei modernen Bussystemen (Burst) 
und/oder Speichern (SDRAM, DDRAM, RAMBUS, etc) erheblich be- 
schleunigt. 

Die internen Speicherzugrif fe erf olgen parallel, da den Ope- 
randen unterschiedliche Speicher zugewiesen wurden. 
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Zum Schreiben der Ergebnisse sind i = 100 externe Zugriffe 
notweridig, die ebenf alls wieder linear mit iriaximaler Perfor- 
mance erfolgen konnen. 

Wehh die Anzahl ■' der Datentransf ers vorab nicht bekannt ist 
{z.B. WHILE-Schleifen) oder sehr grdB ist, kann ein Verfahreri 
verwendet werden, das bei Bedarf durch Unterprogrammaufrufe 
die Operanden nachladt bzw. die Ergebnisse nach extern 
schreibt. Dazu konnen in einer bevorzugten Ausftihrung (auch) 
die Zustande der FIFOs abgefragt werden: 'empty 1 wenn das FIFO 
leer ist, sowie 'full 1 wenn das FIFO voll ist. Entsprechend 
der ZustcLnde ireagiert der Programmf luB . Zu bemerken ist> dass 
bestimmte Variablen (z.B. ai, bi, xi) global defiriiert sind. 
Zu Performanceoptimierung kann ein Scheduler entsprechend der 
bereits beschriebenen Verfahren die Konf igurationen examp- 
le#dloada, example#dloadb bereits vor dem Aufruf von examp- 
le#process bereits ausfiihren, sodass bereits Daten vorgeladen 
sind. Ebenso kann example#dstore (n) nach der Terminierung von 
example#process noch aufgerufen werden um r#x zu leeren. 

subconf ig examplefdloada (n) 
while ! full (r#a) AND ai<=n 
. r#a[ai] := a[ai] 
.. ai++ 

subconf ig exampletdloadb (n) 
while !full(r#b) AND bi<=n 
r#b[bi] := b.[bi] 
bi++ 

subconf ig example#dstore (n) 
while ! empty (r#x) AND xi<=n 
x[xi] := r#x[xi] 
xi++ 
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subconfig exaraple#process 
for i := 1 to n 
for j:= 1 to m 

if empty (r#a) then exampieftdioada (ri) 

if empty (r#b) then example^dioadb (m) " - ' 

if full(r#x) then exampie#dstore (n) ; 

r#x[i] := r#a[i] * r#b[j] 
bj := 1 

Die Unterprogrammaufrufe und das Vefwalten der globalen Varia- 
blen sind fttr rekonf igurierbare Architekturen vergleichsweise 
aufweiidig. Daher kann in einer bevorzugten AusfOhrung die 
nachfolgende Optimierung durchgeftihrt werden, in welcher samt- 
liche Konfigurationen weitgehend unabangig ablauf en und nach 
vollstandiger Abarbeitung terminieren (terminate) . Da die Da- 
ten b[j] mehrfach erforderlich sind, mufl example#dloadb ent- 
sprechend mehrfach durchlaufen werden. Dazu werden beispiels- 
weise zwei Alternativen dargestellt: 

Alternative 1: example#dloadb terminiert nach jedem Durchlauf 
und wird von exampletprocess fttr jeden Neustart neu konfigu- 
riert. 

Alternative 2 : example#dloadb lauf t unendlich und wird von ex 
ample#process termjLniert, ■ 

wahrend 'idle' ist eine Konfiguration untatig (wartend) . 

subconfig example#dloada (n) 
for i:* 1 to n 
while full(r#a) 

idle 
r#a[i] := a[i] 
terminate 



subconfig example#dloadb (n) 
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for i:= 1 to n t: < .V \:-- ; ; : '/ 

while full (r#b) 

=/ : .--terminate ■•*;■ '". ' ::\ 

subconfig example#dstore (n) 
for i:= 1 to n 
while empty(r#b) 

idle 
x[i] := r#x[i] 
terminate/ 

subconfig example#process . • -• 

for i := 1 to n 
for j := 1 to m 

while empty (r#a) or empty (r#b) or full(r#x) 
idle 

r#x[i] := r#a[i] * r#b[j] 
config examplegdloadb (n) // ALTERNATIVE 1 
terminate examplefdloadb (n) // ALTERNATIVE 2 
terminate 

Zur Vermeidung von Wartezyklen kOnnen Konfigurationen auch 
terminiert werden, sobald sie ihre Aufgabe temporSr nicht wei- 
ter erf alien konnen. Die entsprechende Konfiguration wird von 
dem rekonfigurierbaren Baustein entfernt, verbleibt jedoch im 
.Scheduler, Hierzu wird im Folgenden der Befehl 'reenter' ver- 
-•-wendet. Die relevanten Variablen werden vor der Terminierung 
. gesichert und bei der wiederholten Konfiguration wiederherge- 
stellt: 



subconfig example#dloada (n) 
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for ai:- 1 to n 

if fuii(rta) reenter 

r#a[ai] := a[ai] * 
terminate 

subconfig example#dloadb (n) 
while 1 // ALTERNATIVE 2 
for bi:= 1 to n 

if full(r#b) reenter 
r#b[bi] := a[bi] , 
terminate 

subconfig example#dstore (n) 
for xi:= 1 to n 

~ if empty (r#b) reenter : • ' 

x[xi] := r#x[xi] 
terminate 

subconfig example#process 
for i := 1 to n 
for j := 1 to m 

if empty (r#a) or empty (r#b) or full (r#x) reenter 
r#x[i] := r#a[i] * r#b[j] 
con fiq exampletdloadb (n) // ALTERNATIVE 1 
terminate examplefdloadb (n) // ALTERNATIVE 2 
terminate 



2.3 Makros 

Komplexere Funktionen einer Hochsprache, wie z.B. Schleifen, 
werden typisch durch Makros realisiert. Die Makros werden da- 

r 

bei vom Compiler vorgegeben und zur Obersetzungszeit instanti 
iert . (vgl . Figur 4 ) . 
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Die Malcros sind entweder aus einfachen Sprachkonstrukten der 
Hochsprache bder auf Assembierlevel aiifgebaut: Hafcros kdnrien 
parametrisiert sein, um eirie einfache Adaption ah den beschie^ 
benen AlgoritJmus zu ermbglictyfen. (Vgl. Elgur 5 , 0502! ) ." Die 
Makros sind auch vorliegend einzugliedern. 

2.4 Feedback Loops und Register 

Innerhalb der Abbildung eines Algorithmus in ein kombinatori- 
sches Netz konnen unverzdgerte Ruckkopplungen entstehen, die 
unkontroiliert schwingen. ' , 
In praktisch implementierten VPO-Technologien gemafl PACT02 
wird dies durch einen Aufbau der PAE verhindert, bei weichem 
mindestens ein Register zur Entkopplung, etwa fest in den 
PAEs, definiert ist. 

Generell sind unverzSgerte Ruckkopplungen durch Graphenanalyse 
des entstandenen kpmbinatorischen Netzes f eststellbar. In die 
Datenpfade, in denen eine unverz5gerte Rtickkopplung besteht, 
werden daraufhin gezielt Register zur Entkopplung eingefiigt. 
Der Compiler kann somit Register- beziehungsweise Speichermit- 
tel verwalten. 

Durch die Verwendung von Handshake-Protokollen (z.B. RDY/ACK 
gem. 2.2.7) ist die korrekte Funktion der Berechnung auch 
durch das Einf ilgen von Registem sichergestellt. 

2.5 Prozssormodell / Time Domain Multiplexing (TDM) 
Grundsatzlich besitzt jede praktisch realisierte PAE-Matrix 
lediglich eine endliche GrdBe. Daher mufi im folgenden Schritt 
eine Partitionierung des Algorithmus nach 2.2.5 Abs. 4 a/b in 
eine Mehrzahl von Konfigurationen durchgeftihrt werden, die 
nacheinander in die PAE-Matrix konfiguriert werden. Ziel ist 
typisch, m5glichst viele Datenpakete in dem Netzwerk zu be- 
rechnen, ohne umkonf igurieren zu mtissen. 



WO 03/017095 



23 



PCT/EP02/10065 



Zwischen den Konfigurationen wird eine Zwischenspeicherung 
vorgenommen, wobei der Zwischenspeicher - ahrilich eines Regi- 
sters bei CPUs - die Daten zwischen' den einzelnen sequentiell 
ausgefahrten Konfigurationen speichert. 

Somit wird durch das Rekonfigurieren von Konfigurationen , der 
Datenverarbeitung in der PAE-Matrix und der Zwischenspeiche- 
rung in den Speichern ein sequentielles Prozessormodell aufge- 

baut. ... s ....... ■ . • 

Mit anderen Worten wird in der VPU-Technologie durch die be-, 
schriebehe Compilierung nicht ein Opcode sequentiell ausge- 
fiihrt, sondern komplexe : Konfigurationen. Wahrend bei CPUs ein 
Opcode typischerweise ein Datenwort bearbeitet, werden in der 
^VPU-techholbgie eine Mehrzahl" vbh Datenworteh (ein Datenpaket) 
von einer Konfiguration bearbeitet. Dadurch steigt die Effizi- 
enz der rekonf igurierbaren Architektur durch ein besseres Ver- 
haltnis zwischen Rekonf igurationsaufwand und Datenverarbei- 
tung, 

In der VPU-Technologie wird zugleich anstatt eines Registers 
ein Speicher verwendet, da nicht Datenworte, sondern Datenpa- 
kete zwischen den Konfigurationen bearbeitet werden. 

Dieser Speicher kann als Random-Access Memory, Stack, FIFO 
oder als beliebige andere Speicherarchitektur ausgestaltet 
sein, wobei typischerweise mit einem FIFO die beste und am 
einfachsten zu realisiernde Moglichkeit gegeben ist. 

Daten werden nunmehr durch die PAE-Matrix, entsprechend des 
konf igurierten Algorithmus, bearbeitet und in einem oder meh- 
reren Speichern gespeichert. Die PAE-Matrix wird nach der Be- 
arbeitung einer Menge von Daten umkonf iguriert und die neue 
Konfiguration entnimmt die Zwischenergebnisse aus dem/den 
Speicher (n) und setzt die Ausfiihrung des Programmes fort. Da- 
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bei konnen durchaus auch neue Daten von externen Speichern 
urid/dder der Peripherie zusktzlich in die Berechniing einflie- 
Beh, ebeniso kQnnen Ergebnisse an externen Speichern urid/oder 
der Peripherie geschrieben wejfden. . 

Mit anderen. Worteii 1st der. typische Ablauf. einer Datenverar- 
beitung das Auslesen von internen RAMs, das Verarbeiten der 
Daten in der Matrix und das Schreiben von Daten in die inter- 
nen Speicher, wobei- zur Datenverarbeitung auch beliebige ex- 
terne Quellen Oder Ziele fUr Datentransf ers zusatzlich oder 
anstelle der interiien Speicher verwendet werden kdnnen. 

Wahrend "sequencen" bei CPUs als das Neuladen eines OpCodes 
definiert ist, wird nach dem Vorstehenden "sequencen" von VPDs 
also als das (Re) korif igurieren von Konfigurationen- definiert . 
Dies bedeutet allerdings nicht, dafi nicht unter bestimmten Be- 
dingungen Teile des Feldes als Sequenzer im herkoiranlichen Sin- 
ne betrieben werden k6nnten. 

Die Information, warm und/oder wie gesequenzt wird, d.h. wel- 
che nachste Konfiguration konfiguriert werden soil, ist durch 
verschiedene Informationen darstellbar, die einzeln oder kom- 
biniert verwendet werden k5nnen. Z. B. sind folgende Strategi- 
es zur Ableitung der Information allein und/oder in Kombinati- 
on bzw. alternativ sinnvoll: 

a) durch den Compiler zur Obersetzungszeit definiert; 

b) durch das Event -Net zwerk definiert 
(Trigger, DE 197 04 728.9) , 

wobei das Eventnetzwerk interne und/oder externe ZustSnde 
reprasentieren kann; 

c) durch den Ftillgrad der Speicher 

(Trigger, DE 197 04 728.9, DE 196 54 846.2-53). 



2.5.1 Elnflufl des TDM auf das Prozessormodell 
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Die Partitionierung des Algorithmus bestimmt entscheidend die 
relevanteri Zustande, die in den Speichern zwischen den ver- 
schiedenen Konfigurationen abgelegt werden. Sofern ein Zustand 
niiir innerhalb eiher konfiguraifioni relevant ist (lokal relevan- 
ter Zustand) ,. ist es nicht notwendig, diesen zu speichern, was 
vom Compilieryerf ahren bevorzugt berucksichtigt wird. 

Zu Zwecken des Debuggings des auszuftlhrenden Programmes kann 
es aber sinnvoll sein, diese Zustande dennoch zu speichern, um 
dem Debugger einen Zugriff auf diese zu ermogiichen . Auf die : 
DE 101 42 904.5 wird verwiesen; diese ist hiermit vollumfang- 
lich zu Of fenbarungs zwecken eingegliedert - 

Weiterhin kSnnen zusatzlich Zustande relevant werden, wenn ein 
Taskswitch-Mechanismus (z.B. durch ein Bet riebs system oder In- 
terruptquellen) verwendet wird und aktuelle ausgefuhrte Konfi- 
gurationen unterbrochen werden, andere Konfigurationen geladen 
werden und/oder zu einem spateren Zeitpunkt die abgebrochene 
Konf iguration fortgesetzt werden soli. Eine detailliertere Be- 
schreibung folgt im nachfolgenden Abschnitt. 

Ein einf aches Beispiel soil ein Unterscheidungsmerkmal far lo- 
kal relevante Zustande aufzeigen: 

a) Eine Verzweigung des Types "if {) then . . . else . . . " pafit 
vollstandig in eine einzige Konf iguration, d.h. beide Da- 
tenpfade (Zweige) sind gemeinsam vollstandig innerhalb der 
Konf iguration abgebildet. Der sich beim Vergleich ergebende 
Zustand ist relevant, jedoch lokal, da er in den nachfol- 
genden Konfigurationen nicht mehr bendtigt wird. 

b) Dieselbe Verzweigung ist zu groB, um vollstandig in eine 
einzige Konf iguration zu passen. Mehrere Konfigurationen 
sind notwendig, um die vollstandigen Datenpfade abzubilden. 
In diesem Fall ist der Zustand global relevant und mufi ge- 
speichert und den jeweiligen Daten zugeordnet werden, da 
die nachfolgenden Konfigurationen bei der Weiterverarbei- 
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tung der Daten den jeweiligen Zustand des Vergleichs beno- 
" tigen. 

2 .6 Task- Switching 

Eineh zus&tziichen Einf lufi auf ..die Betrachtung und den Umgang , 
mit Zustanden hat der mogliche Einsatz eines Betriebssystemes. 
Betriebssysteme verwenden beispielsweise Task-Scheduler zum 
Verwalten raehrere Aufgaben (Tasks) , urn ein Multitasking zur 
Verftigung zu stellen. 

Task-Scheduler brechen Tasks zu einem bestiinmten . Zeitpunkt ab, 
starten andere Tasks und kehren nach deren Abarbeitung zur 
Weiterbearbeitung des abgebrochenen Tasks zurUck. 
Sofern sichergestellt ist, dafi eine Konfiguration - die hier 
der Abarbeitung eines Tasks ehtsprechen kann - nur nach der 
kompletten Abarbeitung - d.h. wenn alle innerhalb dieses Kon- 
figurationszyklusses zu bearbeitende Daten und Zustande ge- 
speichert sind - tenoiniert f kc3nnen lokal relevante Zustande 
ungespeichert bleiben. Dieses Verfahren, also das komplette 
abarbeiten einer Konf iguration und der nachfolgende Taskswitch 
ist die bevorzugte Methode fiir den Betrieb von rekonfigurier- 
baren Prozessoren und entspricht im Wesentlichen dem Ablauf in 
einem normalen Prozessor, der auch ziinachst die aktuell bear- : 
beiteten Iristruktionen abarbeitet und dann den Task wechselt. 

Ftir manche Anwendungen ist jedoch eine besonders kurze Reakti- 
on auf eine Taskwechselsanforderung erforderlich f z.B. in 
Realtime-Anwendungen, Hier kann es sinnvoll sein Konfiguratio- 
nen vor deren kompletter Abarbeitung abzubrechen. 
Sofern der Task-Scheduler Konf igurationen vor deren vollstan- 
diger Abarbeitung abbricht, mtissen lokale Zustande und/oder 
Daten gespeichert werden. Weiterhin ist dies von Vorteil, wenn 
die Abarbeitungszeit einer Konfiguration nicht vorhergesagt 
werden kann. In Verbindung mit dem bekannten Halteproblem und 
dem Risiko, daB eine Konfiguration (z.B- durch einen Fehler) 
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gar nicht terminiert, erscheint dies weiterhin sinnvoll, urn 
damit einen Deadlock des gesamteh Systems zu verhindern. 
Daher sind vorliegend, unter Berticksichtung von Taskwechseln, 
relevante Zustande auch als stfLche anzusehen, die far einen 
Taskwechsel und ein erneutes korrektes Auf setzen der Datenver- 
arbeitung notwendig sinci. 

Bei einem Taskswitch ist somit der Speicher fur Ergebnisse und 
ggf . auch der Speicher ftir die Operanden zu sichern und zu ei- 
nem spateren Zeitpunkt, also bei der Rttckkehr zu diesem Task, 
wieder her zustellen. Dies kann yergleichbar zu den PUSH/POP 
Befehlen und Verfahren nach dem Stand der Technik erfolgen. 
Weiterhin ist der Zustand der Datenverarbeitung zu sichern, 
also der Zeiger auf die zuletzt vollstandig bearbeiteten Ope- 
randen, Es sei hier besonders auf PACT 18 verwiesen. 

Abhangig yon der Optimieruhg des Taskswitches gibt es bei- 
spielsweise zwei Moglichkeiten: 

a) Die abgebrochene Konfiguration wird neu konfiguriert und 
nur die Operanden werden geladen. Die Datenverarbeitung be- 
ginnt so von neuem, als ob die Bearbeitung der Konfigurati- 
on noch gar nicht begonnen wurde. Mit anderen Worten werden 
einfach alle Datenberechnungen von vorne an ausgefiihrt, wo- 
bei ggf. Berechnungen bereits zuvpr durchgeftthrt wurden. 

. Diese MGglichkeit 1st einfach,. aber nicht effizient. 

b) Die abgebrochene Konfiguration wird neu konfiguriert, wobei 
die Operanden und die bereits berechneten Ergebnisse in die 
jeweiligen Speicher geladen werden. Die Datenverarbeitung 
wird bei den Operanden fortgesetzt, die nicht mehr voll- 
standig berechnet. wurden. Dieses Verfahren ist sehr viel 
effizienter, setzt aber voraus, daB ggf* zusatzliche Zu- 
stande, die wahrend der Verarbeitung der Konfiguration ent- 
stehen, relevant werden, etwa wenn zumindest ein Zeiger auf 
die zuletzt vollstandig verrechneten Operanden gesichert 
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werden muss, damit bei deren Nachfolgern nach erfolgter 
rieiier Konfiguration neu aufgesetzt werden kann. 

2.7 Kontext Switch 

Eine besohders beyorzugte Variant e zur Verwaltiing von relevan- 
ten Daten wird durch den nachfolgend beschriebenen Kontext 
Switch zur Verftigung gestellt. Bei Task-Wechseln und/oder bei 
der Ausftihrung von Konfigurationen und derem Wechsel (siehe 
beispielsweise Patentanmeldung DB 102 06 653.1, die zu Of fen^- 
barungszwecken vollumfanglich eingegliedert ist) kann es er- 
forderlich sein, Daten oder Zustande> die typischerweise nicht 
zusammen mit den Arbeitsdaten in die Speicher abgelegt werden, 
da sie beispielsweise lediglich einen Endwert markieren, ftir 
eine nachf olgende : Konfiguration zusichern* 

Der erf indungsgemafi bevorzugt implementierte Kontext Switch 
wird derart durchgeftlhrt, dass eine erste Konfiguration ent- 
fernt wird und die zu sichernden Daten in entsprechenden Spei- 
chern (REG) (Speicher, Register, Zahler, etc) verbleiben. 

Dann kann eine zweite Konfiguration geladen werden, diese ver- 
bindet die REG in geeigneter Weise und def inierter Reihenf olge 
mit einem oder ^ mehreren globalen Speicher (n) , 
Die Konfiguration kann beispielsweise Adiressgeneratoren ver- 
wenden, um auf den/die globalen Speicher zuzugreifen. Es ist 
also nicht erforderlich, vorab jeden einzelnen Speicherplatz 
durch den Compiler festlegen zu lassen und/oder auf als Spei- 
cher ausgestaltete REG zuzugreifen. 

: Entsprechend der konf igurierten Verbindung zwischen den REG 
werden die Inhalte der REG in einer definierten Reihenfolge in 
den globalen Speicher geschrieben, wobei die jeweiligen Adres- 
sen von Adressgeneratoren vorgegeben werden. Der Adressgenera- 
tor generiert die Adressen fUr den/die globalen Speicher (n) 
derart, dass die beschriebenen Speicherbereiche (PUSHAREA) der 
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entfernten ersten Konfiguration eindeutig zugeordnet werden 
korinen. 

Es werden somit bevorzugt fur unterschiedliche Konfiguratiorien 
unterschiedliche AdressenraumsT vorgesehen. Die Konfiguration 
entspricht dabei einerii POSH gewohnlicher Prdzessdren. " 

Danach verwenden andere Konf igurationen die Ressourcen. 

Nun soil die erste Konfiguration wieder gestartet werden. Zu- 
,vor wird eine dritte Konfiguration gestartet, die die. IteG der v 
ersten Konfiguration in einer definierten Reihenfolge mitein- 
ahder verbindet. 

Die Konfiguration kann wiederum beispielsweise Adressgenerato- 
ren verwenden um auf den Oder die globalen Speichern zuzugrei- 
fen und/oder um auf als Speicher ausgestaltete REG zuzugrei- 
fen. 

Ein Adressgenerator generiert dabei Adressen bevorzugt derart, 
dass ein korrekter Zugriff auf die der ersten Konfiguration 
zugeordnete PUSHAREA erfolgt. Die generierten Adressen und die 
konfigurierte Reihenfolge der REG sind derart, dass die Daten 
der REG in der ursprOnglichen Ordnung aus den Speichern in die 
REG geschrieben werden. Die Konfiguration entspricht einem POP 
gewohnlicher Prozessoren. 

Nun wird die erste Konfiguration wieder gestartet. 

ZusammengefaBt wird ein Kontext Switch bevorzugt derart durch- 
igefiihrt, dass durch das Laden besonderer Konfigurationen, die 
ahnlich von PUSH/POP bekannter Prozessorarchitekturen arbei- 
ten, die zu sichernden Daten mit einem' globalen Speicher aus- 
getauscht werden. Dieser Datenaustausch Ober globale Speicher 
mittels von Push/Pop-Austauschkonf iguationen wird als beson- 
ders relevant angesehen. 
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Die Funktion soil in eiriem Beispiel verdeutlicht werden: 

Eine Funktion addiert 2 Zahlenreihen, die LSnge der Reiheri ist 

zur Qtoersetzurigszeit hicht beJ^nnt, sondern erst zur Laufzeit. 

proc example 

while Klength do 
x[i] - a[i] + b[i] 
i - i + 1 

Die Funktion wird nun wahrend ihrer Ausfuhrung linterbrochen, 
beispielsweise durch einen Task-Switch, bder weil der . fur x 
vorgesehene Speicher voll ist. a,b,x befinden sich zu diesem 
Zeitpunkt erfindungsgemafi in Speichern. i und ggf. length mils- 
sen jedoch gesichert werden. 

Dazu wird die {Configuration example terminiert, wobei die Re- 
gisterinhalte erhalten bleiben und eine Konf iguration push ge- 
startet f die i und length aus den Registern liest und in einen 
Speicher schreibt. 

proc push 

mem[<push_adr_example>] » i 
: pushj adr_exa^le++ . 

memi<push_adr_example>] length 

Nach der Ausftihrung wird push terminiert und die Registering 
halte kQnnen gel5scht werden. 

Andere Konf igurationen werden ausgeftlhrt. Nach einiger Zeit 
wird die Konf iguration example wieder gestartet. 
Zuvor wird eine Konf iguration pop gestartet, die die Registe- 
rinhalte wieder aus dem Speicher liest. 

proc pop 

i = mem[<push_adr_example>] 
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push_adr_example++ 

length = mem[<push_adr_example>] 

Nach der Ausftthrung wird pop tferminiert und die Registeririhai- 
te bleiben besteheri. Die Kbnf iguration example wird wieder ge- 
startetv . ' ' V : 

2.8 Algorithmische Opt imie rung 

Durch das beschriebene tfbersetzungsverfahren werden Kontroll- 
strukturen von algorithmischen Strukturen getrennt. Beispiels- 
weise zerfallt eine Schleife in einen Rumpf (WHILE) und eine 
algorithmische Struktur . (Anweisungen) 

Die algorithmischen Strukturen lassen sich nunmehr bevorzugt 
optional durch ein zusatzliches, der Trennung nachgeschaltetes 
Werkzeug optimieren. 

Beispielsweise kann eine nachgeschaltetes Algebra-Software die 
prbgrammierten Algorithmen optimieren und minimi eren. Derarti- 
ge Tools sind z.B. unter Bezeichnungen wie AXIOM, MARBLE, etc. 
bekannt. Durch die Minimierung kann eine schnellere Ausftthrung 
des Algorithmusses und/oder ein erheblich verringerter Platz- 
bedarf erreicht werden* 

Das Ergebnis der Optimierung wird danach wieder in den Compi- 
ler geftthrt und entsprechend weiterverarbeitet . 
Es soli zudera angeinerkt sein, dass moderne Compiler : (- 
Frontends) bereits eine Anzahl von Optimierungen fttr Algo- 
rithemen (auch z.T. algebraische) implementiert haben, die 
selbstverstandlich im Rahmen des hier beschriebenen Verfahrens 
weiterhin nutzbar sind. 

Es soli ausdrttcklich erwShnt sein, dass die beschriebenen Ver- 
fahren, insbesondere jedoch die Abschnitte 2.2.7 "Umgang mit 
Zeit" und 2.3 "Makros" auch auf Compiler nach PACT20 angewen- 
det werden konnen. PACT20 wird diesbezttglich zu Offenbarungs- 
zwecken vollumfanglich in diese Patentanmeldung einbezogen. 
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3. Anwendbarkeit for Prozessoren nadi dan Stand der Technik, 
insbesondere mit VLIW-Architektur 

Es soil bSsoriders angemerkt werdeh/ daB alhstatt: einer PAE- 
Matrix auch eine Anordriung von arithmet isch logischen Einhei- 
ten nach dem Stand der Technik (ALUs) , wie beispielsweise in 
VLIW-Prozessoren tiblich, und/oder eine Anordnung von komplet- 
ten Prozessoren, wie beispielsweise in Multiprozessorsystemen 
tiblich, yerwendet werden kann. Ein Sonderfall stelit dabei die 
Verwendurig einer einzelnen ALU das, sodafi das Verfahren auch 
fiir normale. CPUs verwendbar ist. 

In der Dissertation [Referehz Dissertation Armin Nuckel] wurde 
ein Verfahren :entwickelt f das die Obersetzung der WHILE- - 
Sprache in semantisch korrekte endliche Automaten enaoglicht. 
Dariiber hinaus kann ein endlicher Automat als "Unterprograium" 
verwendet werden und umgekehrt. Dadurch entsteht die Moglich- 
keit, eine Konfiguration auf unterschiedliche Implement ie- 
rungstechnologien abzubilden, wie z.B. CPUs; symmetrische Mul- 
tiprozessoren; FPGAs; ASICs; VPUs. 

Insbesondere ist es m5glich, Teilen einer Applikation die je- 
weils optimal geeignete Hardware zuzubrdnen bzw. eine jeweilie 
Eignung zu bestimmen und arthand der mehr odef weniger gut en 
Eignung die optimale Hardware zuzuordnen. Dabei sind bevorzugt 
auch temporSre Ressourcenverteilungen und -reservierungen er- 
fafibar. Mit anderen Worten wurde beispielsweise eine Daten- 
flufistruktur einer DatenfluBarchitektur zugeordnet werden, 
wahrend eine sequentielle Struktur auf einen Sequenzer abge- 
vbildet wird, sofern diese vorhanden und/oder verfilgbar sind. 

r 

Die entstehende Problemstellungen der Ressourcenzuweisungen 
far die einzelnen Algorithmen kSnnen z.B. durch einen "Job As- 
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signmenf'-Algorithmus zur Verwaltung der Zuordnung gelost wer- 
den. 

4 . Implementierung 

Die Implementierung eines erfindungsgemafien Compilers soli von 
eine "normalen" Sequentiellen Progfainmiersprache ausgehen, al- 
so z.B. C oder Pascal. Diese Sprachen weisen die Eigenschaft 
auf, dass durch ihren sequentiellen Charakter eine zeitliche 
Abfolge implizit und kiinstlich durch die Sprachendefinition an 
sich generiert wird* ... 
Beispiel A: 
Zeile 1: i++ •'. " 
Zeile 2: a = i * b 
Zeile 3: x = p - a 
'Zeile 4: j = i * i '• -"r : ■■ 

Durch die Sprachdef inition ist fest vorgegeben, dass Zeile 1 
vor Zeile 2 vor Zeile 3 vor Zeile 4 ausgefuhrt wird. Aller- 
dings konnte Zeile 4 auch direkt nach Zeile 1 ausgeftthrt wer- 
den und somit parallel zu Zeile 2 und 3 bearbeitet werden. 

Mit anderen Worten werden durch sequentielle. Sprachen yeitere 
ktinstliche und nicht algorithmisch bedingte Zustande einge- 
baut. Wichtig ist lediglich die korrekte zeitliche Abfolge der 
Berechungen in Beispiel A. Zeile 4 darf erst berechnet werden, 
wenn i korrekt definiert 1st, also nach der Abarbeitung von 
Zeile 1. Auch Zeile 2 darf erst nach der korrekten Definition 
von i (also nach der Abarbeitung von Zeile 1) verarbeitet wer- 
den. Zeile 3 benotigt die Ergebnisse von Zeile 2 (die Variable 
•. a) und darf daher erst nach derer korrekten Definition berech- 
. net werden. Somit ergibt sich eine Datenabh£ngigkeit aber kei- 
ne besonderen Zustande. 

Anhand der Datenabhangigkeiten der Variable a in Zeile 2 und 3 
(Zeile 3 verwendet a als Operand, a ist das Ergebnis von Zeile 
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2) kann automatisch durch den Compiler folgende Transformation 
zur Representation der Parallelisier- bzw. Vektorisi^rbarkeit 
(ParVec-Transformation) durchgeftihrt werden: 

Zeile 2: VEC{a = i * b; 
Zeile 3: x = p ~ a} : 

VEC bedeutet, dass jeder durch 1 ; f getrennte Ausdruck nachein- 
ander abgearbeitet wird, wobei die Ausdriicke innerhalb der ge- 
schweiften Klammern grundsatzlich gepipelinet werden konnen. 
Bevorzugt miissen samtliche Berechnungen am Ende von VEC{ } 
durchgeftihrt und abgeschlbsseri seiri, damit die Datenverarbei- 
tung hinter VEC f ortgesetzt wird. 

Besser wird in einer internen Representation der ' Datenstruktu- 
ren im Compiler die beiden Berechnungen als ein Vektor mar- 
kiert: 

VEC{a=i*b; x=p-q} 

Zeile 4 ergibt einen einfachen Vektor: 
VEC{j = i*i} 

Da sich Zeile 4 gleichzeitig zu Zeile 2 uhd 3 berechnen lSsst 
kann die Parallelitat folgendermassen ausgedrtickt werden: 

PAR{{VEC{a=d*b; x=p-a} ;VEC{ j=i*i} } 

PAR bedeutet, dass jeder durch '{..}' getrennte Ausdruck zeit- 
gleich abgearbeitet werden kann. Bevorzugt miissen samtliche 
Berechnungen am Ende von PAR{ } durchgeftihrt und abgeschlossen 
sein, damit die Datenverarbeitung hinter PAR fortgesetzt wird 



Wird Zeile 1 mit einbezogen, ergibt sich: 
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"VEC {•!++;• PAR{ {VEC{a=i*b; x=p-a} } {VEC{ j=i*i} } } } 

Da VEC{j=i*i} ein Vektor init nSir eihem Element darstellt/ fcariii 
auch wir folgt geschrieben werden: 

VEC{i++; PAR{{VEC{a=i*b; x=p-a} } { j=i*i) } } 



Ein weiteres. Beispiel zeigt einen echten Zustand. 

Beispiel B: 

Zeile i: i++ 

Zeile 2: a = i * b 

Zeile 3: if a < 100 { 

Zeile 4: ; x = p ~- a •-■'»■ 

Zeile 5: } else { 

Zeile 6: j = i * i } 

Jetzt kann Zeile 6 nur noch nach der Berechnung von Zeile 2 
und Zeile 3 ausgeftihrt werden. Die Berechnung von Zeile 4 und 
6 findet alternativ statt. Alsb : ist der Zustand von Zeile 3 
f tir die weitere Datenverarbeitung relevant (relevanter Zu-^ 
stand) . 

Bedingte Zustande k5nnen bei einer Transformation durch IF 
ausgedrtickt werden: 

Zeile 1-2: VEC{i++; a=i*b} 

Zeile 3: IF{ {a<100} { zeile4} {zeile6} } 

Zeile 4: VEC{x=p-a} 

Zeile 6: VEC{j=d*i} 



Zusammengefafit ergibt das 

VEC{i++; a=i*b; IF{ {a<100} {VEC{x=p-a} } {VEC{ j=i*i} } } } 
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Weitere relevarite ZustShde werden durch Schleifen ~erzeiigt : 
BeiSpiel C: 

Zeile 1: for (i - 1,1 < 10,0, i++) 

Zeile 2: V- a ^ : ai-*> l : ' ; - " " : 

•Zeile .3:.; q = p / a-.*' ■ 

Zeile 3 darf erst ausgeftthrt werden, nachdem die Schleife ter- 
miniert ist. Also bestehen bei bedingten Sprtingen relevante 
Zustande. _ . . 

Eine erste Transformation der SchLeife ergibt: 

Zeile 1: i=l; / 

Zeile 2: loop: if i >= 100 then exit 

Zeile 3:~ a = a * i " 

Zeile 4: i++ 

Zeile 5: jump loop 

Zeile 6: exit: q = p / a 

Zeile 3 und 4 konnen parallel berechnet werden, da Zeile 4 
nicht vom Ergebnis von Zeile 3 abhangt:' 

PAR{{a=a*i}{i++}} 

Zeile 5 ergibt eirien Vektor mit dem generierten PAR, da erst 
nach vollstandiger Berechnung der Weirte wieder in die Schleife 
gesprungen werden darf (hier liegt also eine zeitliche Abhan- 
gigkeit vor) . 

VEC{PAR{{a==a*i}{i++}}; jump loop} 



Somit ergibt j 
loop: IF{{i>= 
loop}}} 



sich ftir die Bedingung: 

=100} {jump exit}{VEC{PAR{{a=a*i}{i++}}; jump 
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Die Zeile 1 ist ein Vektor mit der Bedingung, da diese vor der 
Bedingung ausgefUhrt werdeh muss (IF verwendetiais Operand; 
i ist das Ergebnis von Zeile 1). 

Zeile io ist wiederum ein Vektcfr mit der Bedingung/ da a als 
Operand verwehdet wird und a das Ergebnis. der Bediirigung ist.'. 

Somit ergibt sich (in iibersichtlicher Schreibweise) : 
VEC{ 

i++; 
, loop: IF{ 

UXL00} 
{jump exit} 

{vec{ '" '" 

PAR{ 

• ! • {a=a*i} " ' • " ' • - 

{i++} 

}; 

jump loop 
} 

} 

}; 

exit: q=p/a 

} . . 

Die Inhalte von VEC{ } und PM{ } k5nneii als reiri kbinbinatori- 
sche Netze betrachtet werden. 

Bevorzugt wird VEC und PAR ale Petri-Netz ausgestaltet, um wie 
bevorzugt die Weiterverarbeitung nach kompletter Verarbeitung 
der jeweilgen Inhalte zu steuern. 

Durch die mSgliche Betrachtung von VEC und PAR als rein kombi- 
natorisches Netz entsteht die Notwendigkeit den Schleifenzu- 
stand zu sichern. D.h. in diesem Fall ist es tats^chlich not- 
wendig einen endlichen Automaten zu schaffen. 
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Die Anweisung REG{ } speichert dazu Variablen in einem Regi- 
ster. Somit entsteht durch di<e Verwendung der koirfcihatorischen 
Netze VEC und PAC in Verbindung mit dem Register. REG ein end-, 
licher Automat, der exakt ents^rechend des Algorithmus aufge- 
baut ist: 

VEC{ 

i++; 

loop: IF{ 

{i>=100} . : 
{jump exit) 
{VEC{ 

; PAR{; \ 

{a=a*i} 

}; 

REG(a;i} 
jump loop 
} 

} 

}; 

exit: q=p/a 

Es soil besonders daraiif hingewiesen werdeh, dass' in der VPU 
Technologie des Anmelders (vgl. PACT21) Ein- und/ Oder Aus- 
gangsregister an den PAEs vorgesehen sind und die zeitliche 
Korrektheit und die Verftigbarkeit von Daten durch ein inte- 
griertes Handshake-Protokoll (RDY/ACK) sichergestellt ist. In- 
soweit wird die Forderung bevorzugt beim Verlassen von VEC{} 
oder PAR{} deren interne Datenverarbeitung abgeschlossen zu 

r 

r haben automatisch ftir alle nachfolgend verwendeten Veriablen 
erftillt (w^re die Datenverarbeitung nicht beendet, wtirden 
nachfolgende Berechnungsschritte auf die Beendigung und das 
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Eintref f en der Daten warten) . Durch die integrierten Register 
sind auch schwingende Rtickkopplurigen ausgeschlossen. 

ihsoweit ist nachf olgender Terfc f ttr diese Technoiogie korrekt : 
VEC { PAR { { a=a* i } { i++ } } ; jump loop} 

Fur andere Technologies die die o.g. Ausgestaltungen nicht 
oder nur teilwelse aufweisen, sollte der Term folgendermassen 
f ormuliert werden : 

VEC{PAR{ {a=a*i}li++}}; REG{ a;i} ; jump loop}. . 

Es soil darauf hingewiesen werden, dass diese Form auf' jedeh 
Fall auch in der VPU^Technologie des Anmelders zu einer kor- : 
rekten und optimalen Abbildung des Algorithmus auf den rekon- 
figurierbaren Prozessor fuhrt. r -. 

REG kann innerhalb der kombinatorischen Netze VEC und PAR ver- 
wendet werden. Streng betrachtet verlieren dadurch VEC und PAR 
die Eigenschaft der kombinatorischen Netze. Abstrakt kann je- 
doch REG als ein komplexes Element (REG-Element) eines kombi- 
natorischen Netzes betrachtet werden, dem eine eigene Abarbei- 
tungszeit zugrunde liegt. Die Bearbeitung der nachfolgenden 
Elemente wird vom der Beendigung der Berechnung des REG- 
Element es abhangig gemacht- 

In dem Bewusstseiri dieser begriff lichen Dngenauigkeit wird ei- 
ne Verwendung von REG innerhalb von VEC und PAR im Weiteren 
zugelassen und ist insbesondere auch notwendig. 

Wie bereits vorstehend erwahnt, ist die Verwendung von REG ty- 
pischerweise innerhalb einer {Configuration einer VPO des An- 
melders nicht erforderlich, sondern explizit immer nur dann, 
wenn die Berechnungsergebnisse einer Konf iguration abgespei- 
chert werden, sodass REG ein diesem Anwendungsf all tatsachlich 
dem expliziten Register eines endlichen Automaten entspricht. 
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Neben der Synthese von endlichen Automaten fur Schleifen, sind 
Ihsbesondere in einem weitereri Fall endliche Automaiten erf or- 
derlich: 

1st ein Algdrithmus zu groB, um komplett innerhalb der PAEs 
eines rekpnf igurierbareri Prozessors abgearbeitet zu werden, 
rauB er in mehrere Teilalgorithmen zerlegt werden. Jeder Tei- 
lalgorithmus stellt eine Konfiguration ftir den rekonfigurier- 
baren Prozessor dar. Nacheinander, also sequentiell, werden 
die Teilalgorithmen auf den Prozessor konf iguriert, wobei die 
Ergebnisse der jeweils vorhergehenden Konfiguration (en) ftir 
die jeweiis neue Konfiguration als Operarideh dieneri. 

Mit anderen Worten entsteht durch die Rekonfiguration ein end- 
licher Automat, der zu einem "Zeitpunkt t : Daten beairbeitet und 
speichert und zu einem Zeitpunkt t+1, mSglicherweise nach ei- 
ner Konfiguration, die gespeicherten Daten ggf . anders verar- 
beitet und wieder speichert. Wesentlich ist, dass t nicht im 
klassischen Sinn durch Takte oder Befehle def iniert wird, son- 
dern durch Konf igurationen. Hierzu sein besonders die Presen- 
tation Prozessormodell (PACT, Oktober 2000, San Jose) referen- 
. ziert. 

Mit noch anderen Worten besteht eine Konfiguration aus einem 
kombinatorischen Netz aus VEC und/oder PAR, dessen Ergebnisse 
gespeichert werden (REG) , um in der nachsten Konfiguration 
weiterverwendet zu werden: 

Konfiguration 1: VEC{Operands; {VEC| PAR} ; REG {Re suits 1} } 
Konfiguration 2 : VEC{Resultsl; {VEC | PAR} ;REG{Results2 } } 
• • » 

Zum einf acheren Verstandnis haben die obigen Beispiels und Be- 
schreibungen die Konstrukte VEC, PAR und REG in der Hochspra- 
chen eingeflihrt und diese dadurch strukturiert . Typischerweise 
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und bevorzugt wird diese Strukturierung erst aber auf der Ebe- 
rie der Zwischerisprache (siehe Principles of Compiler Design. 
(Red Dragon) , Aho, Sethi, Ullmann) eingefuhrt. 
Es soil besonders darauf hing^wiesen werdien, dass die Struktu- 
rierung von Aigorithmen mit VEC, PAR und REG typischerweise 
vollkommen .automatisch durch den Compiler durch Methoden wie 
z.B. Graphenanalyse durchftthrbar ist. 

Insbesondere ist es aber auch denkbar und teilweise von Vor- 
teil dem Programmierer selbst die Strukturierungsmoglichkeit 
in der Hochsprache dadurch zu ermoglichen, dass VEC, PAR und 
REG wie oben aufgezeigt direkt in der Hochsprache beschreibbar 
sind. 

Generierting 

Die automatische Erstellung von VEC, PAR und REG kann auf un- 
terschiedlichen Ebenen einen Compilierungsvorganges durchge- 
ftihrt werden. Die zunSchst einleuchtendste ist wahrend eines 
Praprozessor-Durchlaufes auf Basis des Source-Codes wie in den 
vorigen Beispielen beschrieben. Ftir die weitere Compilierung 
ist danach allerdings ein speziell angepasster Compiler erf or- 
der lich. 

Ein weiterer Aspekt ist, dass Compiler zumeist automatische 
Optimierungen von Code vornehmen (z.B. in Schleif en) . Eine ef- 
fiziente Zerlegung des Codes ist daher erst nach den Optimie- 
rungslaufen sinnvoll, insbesondere wenn Compiler (wie z.B. 
SOIF, Universitat Stanford) bereits den Code fiir Parallelisi- 
serung und/oder Vectorisierung hin optimieren. 

Die daher besonders bevorzugte Methode ist die Einbindung der 
Analysen in das Backend eines Compilers. Das Backend ubersetzt 
eine compilerinterne Datenstruktur auf die Befehle eines Ziel- 
prozessors. 
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Als corapilerinterne Datehstruktureh werden zumeist Zeiger- 
strukturen wie DAGs/GAGs ,. Trees oder 3-Adress-Codes verwendet 
(siehe Principles of Compiler .Design (Red Dragon), Aho, Sethi, 
uiimanh) • TeilWeise werdeh aucti Stackr-Sa chine-Codes verweiidet 
( siehe Compiler selbstgeschneidert ; C/ T 198 6 1-5 ) . Da die Da- 
tenformate prinzipiell Equivalent sind und ineinander trans- 
formiert werden konnen, setzt die erf indungsgemSfi bevorzugte 
Methode auf der Weiterverarbeitung von Graphen, wie bevorzugt 
Trees> auf.-- ,• •. 

Datenabhangikeiten und mSgliche Parallelitaten entsprechend 
dera vorstehend beschriebenen Verf ahren sind, ihnerhalb von" 
Trees einfach auf Basis der Struktur automatisch zu erkennen. 
Hierzir konneh beispielsw^ise bekannte und etablierte Verfahren 
der Graphenanalyse eingesetzt werden. Alternativ Oder optional 
kann durch entsprechend adaptierte Parsingmethoden ein Algo- 
rithmus auf Datenabhangikeiten, Schleifen, Sprunge etc. hin 
untersucht werden. Dabei kann ein Verfahren ahnlich dera der 
Auswertung von AusdrUcken in Compilern verwendet werden. 

Abbildong 

Die weitere Transformation des Algorithmus ist nunmehr stark 
von der Zielarchitektur abhangig. Beispielsweise bietet die 
Prozessorarchitektur des Anmelders (VPU, XPP) automatische Da- 
tensynchronisation in Hardware. Das bedeutet, dass die korrek- 
te zeitliche Abfolge von Datenabhangigkeiten automatisch in 
der Hardware gehandhabt wird. Andere Architekturen benStigen 
zum Teil zusatzlich die Synthese geeigneter Zustandsmaschinen 
ftir die Steuerung es Datentransfers. 

Besonders interessant ist die Handhabung bedingter Sprtinge. 
Beispielswiese stellt die Prozessorarchitektur des Anmelders 
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mehrere Mechanismen zu derer Abbildung und Ausftthrung zur Ver- 
ftigung: 

1. Rekonfigtiratiori des Prozessors oder" Teilen des Prozessors 
durch eine ttbergeordnete Konfi'gurationseinheit (vgl. Patentan- 
meldung (en) PACT01 , 04/ 05/10, 13, 17) 

2. Auswalzen der Fuhktibn in das Array aus PAEs (vgl. Pa- V 
tentanmeldung PACT08), dabei werden z-B. beide moglichen Zwei- 
ge eines Vergleiches zugleich auf das Array abgebildet. 

3. Wave Rekonf iguration nach Patent anmeldung (en) PACT08, 13, 
17), dabei wird den unterschiedlich zu bearbeitenden Daten ein 
Token mitgegeben, das die jeweils gxlltige Konf iguration w^hlt. 

Es soil erwahnt sein, dass der Mechainismus 1 der allgemein ty- 
pisch anzuwendende Fall ist. Der Mechanismus 2 ist bereits bei 
den meisten "Technologien setir aufwendig oder gar nicht iiaple- 
mentierbar und der Fall 3 ist bislang nur aus der VPU- 
Technologie des Anmelders bekannt. 

Die jeweils zu wahlende Ausftihrungsmethode hangt von der Kom- 
plexitat des Algorithmus, dem erforderlichen Datendurchsatz 
(Performance) und der exakten Ausgestaltung des Zielprozessors 
ab (z.B. Anzahl der PAEs) . 
Beispiele: 

Ein; einfacher Vergleich soli folgendes Berechnen: 
if i < 0 then a=a*(-i) else a=a*i 

Eine Rekonf iguration des Prozessors (Mechanismus 1) je nach 
Ergebnis des Vergleichs scheint wenig sinnvoll zu sein. 
Das Auswalzen beider Zweige in das Array (Mechanismus 2) ist 
Grundsatzlich moglich. Je nach Ergebnis des Vergleichs werden 
entweder die a=a*(-i) oder a=a*i berechnenden PAEs angesteuert 
(vgl. PACT08) . 

Besonders platzeff izient ist das Oberlagern der beiden Berech- 
nungen (Mechanismus 3), wodurch nach dem Vergleich unabhangig 
vom Ergebnis dieselbe(n) PAEs die Daten weiterverarbeiten, die 
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Daten aber mit einem Token versehen sind, das sodann in Abhan- 
gigkeit vom V^rgleich lokal in den jeweils nachfolgenden die 
Daten verarbeitenden PAEs. eritweder die Funktion a=a*(-i) oder 
a=a*i auswahlt. (vgl. PACT08, 13, 17) . 

Nach Me6hanisnuis 1 entsteht eiri - global relevanter Zustand, da- 
die komplette folgende Konfiguration davon abhangig ist. 

Nach Mechanismus 2 und 3 entstehen nur ein lokal relevanter 
Zustand,: da dieser ttber die Berechnung hinaus - die vollstan- 
dig implementiert ist - nicht mehr benotigt wird. . 

Mit anderen Worteri kann die lokale oder giobale Relevariz von 
Zustanden auch von der gewahlten Abbildung auf die Prozessor- 
ardhitektur abharigen. 

Ein Zustand der Ober eine Konfiguration hinaus und somit tiber 
das kombinatorische Netz des eine Konfiguration reprasentie- 
renden endlichen Automaten hinaus relevant ist (also von nach- 
folgenden endlichen Automaten benotigt wird) , kann grundsatz- 
lich als global betrachtet werden. Es soli nochmals auf die 
verwendete diffuse Terminologie des Begriffes kombinatorisches 
Netz hingewiesen werden. 

Bef ehlsmodell des entstandpnen Prozessors 

Entsprechend der vorliegenden Erfindung entsteht ein Prozes- 
sormodell ftir rekonfigurierbare Prozessoren, das alle wesent- 
lichen Befehle umfafit: 

Arithmetisch/logische Befehle werden direkt in das kombihato- 
rische Netz abgebildet. 

Sprxinge (Jump/Call) werden entweder direkt in das kombinatori- 
sche Netz ausgewalzt oder durch Rekonfiguration realisiert . 
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Bedingung und Kontrollflufibef ehle (if, etc) werden entweder im 
kombinatorischen Netz vollstahdig aufgelost und bearbeitet 
oder an eine iibergeordnete Konf igurationseinheit weitergedei- 
tet, die sodann entsprecherid des entstariderien Status eine Re- 
kbnfiguratiqn durchfuhrt. 
Load/Store-Operationen werden bevorzugt in separate Konfigura- 
tionen abgebildet und durch Adressgeneratoren ahnlich den be- 
kannten DMA's realisiert, die internen Speicher (REG{ } ) mit- 
tels Adressgeneratoren in externe Speicher schreiben oder die- 
se von externen Speichern und/oder Peripherie laden. Sie kon^- 
nen aber auch zusammen mit der datenverarbeitenden Konfigura- 
tion konfiguriert sein und arbeiten. 

Register-Move-Qperatibnen werden ica kombinatorischen Netz 
durch Busse zwischen den internen Speichern (REG{ } ) reali- 
siert. 

Push/Pop-Operationen werden durch separate Konfigurationen 
realisiert, die ggf . bestimmte interne Register im korabinato- 
rischen Netz und/oder die internen Speicher (REG{ } ) mittels 
Adressgeneratoren in externe Speicher schreiben oder aus ex- 
ternen Speichern lesen und die bevorzugt vor oder nach den ei- 
gentlichen datenverarbeitenden Konfigurationen ausgefiihrt wer- 
den. • 

5. Beschrei bring der Figuren 

Die nachfolgenden Figuren zeigen Implementierungs- und Ausge- 
staltungsbeispiele des Compilers. 

Figur la zeigt den Aufbau eines gewGhnlichen endlichen Automa- 
te^ bei welchem ein kombinatorisches Netz (0101) mit einem 
Register (0102) verkntipft 1st. Daten konnen direkt an 0101 
(0103) und 0102 (0104) gefflhrt werden. Durch eine Ruckkopplung 
(0105) des Registers auf das koinbinatorische Netz ist die Ver- 
arbeitung eines Zustandes in AbhSngigkeit des/der vorhergehen- 
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den ZustSnde moglich. Die Verarbeitungsergebnisse werden durch 
0106 dargestellt. 

Figur lb zeigt eine Reprasent^tion des ' endlichen Automaten 
durch eine re konf igur i e rbar e Architektur nadh PACT01 und 
••: PACT 04 ( PACt 04 : Fig . 12-15 ) . Das koinbiriatdrischen Net z aus : Fi- ■ 
gur la (0101) wird durch eine Anordnung von PAEs 0107 ersetzt 
(0101b). Das Register (0102) wird durch einen Speicher (0102b) 
ausgefOhrt, der mehrere Zyklen speichern kann. Die Ruckkopp- 
lung gemafi. 0105 erf plgt durch 0105b. . Die Eingange (0103b bzw., 
0104b) sind Equivalent 0103 bzw 0104. Der direkte Zugriff auf 
0102b kann ggf. durch einen Bus durch das Array 0101b reall- 
siert werden. Der Ausgang oi06b 1st- wiederum aquivalent 0106. 

Figur 2 zeigt die Abbildung eines endlichen Automaten auf eine 
rekonfigurierbare Architektur. 0201 (x) reprasentieren das kom- 
binatorische Netz (das entsprechend Figur lb als PAEs ausge- 
staltet sein kann) . Es existieren ein oder mehrere Speicher 
ftir Operanden (0202) und ein oder mehrere Speicher fur Ergeb- 
nisse (0203). Zusatzliche Daten Ein-/Ausgange gem. 0103b/ 
0104b, 0106b) sind der Einfachhieit halber nicht dargestellt.. 
Den Speichern zugeordnet ist jeweils ein Adressgenerator 
(0204, 0205) . 

Die Operanden- und Ergebnisspeicher (0202, 0203) sind physika- 
lisch oder virtuell derart miteinander verkoppelt, daB bei- 
spielsweise die Ergebnisse einer Funktion bzw. einer Opera- 
tion einer anderen als Operanden dienen konnen und/oder sowohl 
Ergebnisse als auch neu zugeftthrte Operanden einer Funktion 
einer anderen als Operanden dienen kSnnen. Eine derartige 
Kopplung kann beispielsweise durch Bussysteme hergestellt wer- 
den oder durch eine (Re)Konfiguration durch welche die Funkti- 
on und Vernetzung der Speicher mit den 0201 neu konfiguriert 
wird. 
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Figur 3 zeigt verschiedene AspeJcte zum Umgang mit Variablen. 
In Figui. 3a ; zeigeh 0301, 0302, 0303 verschiedene Stufeii der 
Berechnung. Diese Stufen kohneh rein kombinatorisch bder auch 
Ober Register yoiieinander getjp^nnt sein. fl, f2, f3 sind Furik- 
tionen, xl ist eine Variable gemafi Patentbeschreibung. 
Figur 3b zeigt die Verwendung einer Variablen :xi. ; in der Funk- 
tion xl xl + 1. 

Figur 3c zeigt das Verhalten eines endlichen Automaten zur Be- 
jrechnung von xl := xl + 1 innerhalb einer Konf iguration. In 
cler nachsten Kqnf iguration sind 0306 und 0304 zu vertauschen . 
urn einen vollstandigen endlichen Automaten zu erhalten. 0305 
reprSsentiert die Adressgeneratoren fur die Speicher 0304 und 
0306. 

Figur 4 zeigt Implement ierungen von Schleifen. Die schraffier- 
ten Module kdnnen durch Makros generiert werden (0420, 0421) . 
0421 kann auch durch Analyse des Graphen auf unverzSgerte 
Riickkopplungen eingefiigt werden. 

Figur 4a zeigt die Implement ierung einer einfachen Schleife 
der Art 
WHILE TRUE DO 

xl := xl + 1; 

Im Kern der Schleife liegt der Zahler +1 (0401). 0402 ist ein 
Multiplexer, der zu Beginn den Startwert von xl (0403) auf 
: 0 4 0 1 f Qhr t und sodahn bei jeder Iteration die Rttckkoppluiig 
(0404a, 0404b) bewirkt. In die Rilckkopplung ist ein Register 
(vgl. REG{ } ) (0405) eingesetzt, um eine unverzogerte und damit 
unkontrollierte Riickkopplung des Ausgangs von 0401 auf dessen 
Eingang zu verhindern. 0405 wird mit dem Arbeit stakt der VPU 
getaktet und bestimmt damit die Anzahl der Iterationen pro 
Zeit. Der jeweilige Zahlerstand wSre an 0404a oder 0404b ab- 

T 

\ greifbar. Je nach Definition der Hochsprache terminiert die 
Schleife jedoch nicht. Beispielsweise ware in einer HDL (nach 
dem Stand der Technik (z.B. VHDL, Verilog) das Signal auf 0404 
nutzbar, wahrend es in einer sequentiellen Programmiersprache 
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(z.B. C) 0404 nicht nutzbar ist, da die Schleife nicht termi- 
niert und somit "keineh Exit-Wert liefert. 

Der Multiplexer 0402 realisiert ein Makro, das aus dem Schlei- 
fenkonstrukt entstanden ist, Rtes Makro wird durch die Oberset- 
zung voh WHILE instant iiert. ... 

-Das Register 0405 ist entweder ebenf alls . Teil des Makros oder 
wird entsprechend einer Graphenanalyse nach dem Stand der 
Technik exakt dann und dort eingefugt, wo eine unverz6gerte 
Rtickkopplung existiert, vim so die Schwingneigung auszuschal- 
ten. • • • 

Figur 4b zeigt den Aufbau einer echten Schleife der Art 
WHILE xl < 10 DO 
xl ~ xl + 1; 

Der Aufbau entspricht ira Kern der Figur 4a, weshalb dieselben 
Referenzen verwendet wurden. 

Zusatzlich ist eine Schaltung dargestellt, die die Gtlltigkeit 
des Ergebnisses kontrolliert (0410) und das Signal von 0404a 
nur dann an die nachfolgenden Funktionen (0411) weiterleitet, 
wenn das Abbruchkriterium der Schleife erreicht ist. Das Ab- 
bruchkriteriim wird durch den Vergleich xl < 10 festgestellt 
(Vergleichsstufe 0412). Als Ergebnis des Vergleiches wird das 
betreffende Statusf lag (0413) an ein Multipliziermittel 0402 
zur Steuerung der Schleife und die Funktionen 0411 zur Kon- 
trolle der Ergebnisweiterf tihrung geleitet . Das Statusf lag 0413 
kanri beispielsweise durch Trigger gemaB DE 197 04 728.9 imple- 
mentiert sein. Ebenf alls kann das Status flagmitt el 0413 an ei- 
ne CT gesendet werden, die daraufhin die Terminierung der 
Schleife erkennt und eine Rekonf iguration durchftihrt. 

Figur 5a zeigt die iterative Berechnung von 
FOR i:=l TO 10 

xl := xl * xl; 

Im wesentlichen entspricht die Grundfunktion Figur 4b, weshalb 
die Referenzen tibernommen wurden. Der Funktionsblock 0501 be- 
rechnet die Multiplikation. Die FOR-Schleife wird durch eine 
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weitere Schleife entsprechend Figux 4b implementiert und ist 
lediglich diifch Block 0503 angedeutet. Block 0503 -lief ert deh 
Status des Vergleiches auf das Abbruchkriterium. Der Status - 
wird direict zur Ansteuerung dqpc Iteration verwendet, wodurch 
das Mattel 0412 (dargestellt durch 0502) weitgehend entfallt. 



Figur 5b zeigt das Auswalzen der Berechnung von 
FOR i:=l TO 10 

xl := xl * xl; . 
Da die Anzahl der Iterationen zur Ubersetzungszeit exakt be- 
kannt ist, kann die Berechnung in eine folgeTvon i Multipli- 
zierern (0510) abgebildet werderi. 

Figur 6 zeigt die Ausfuhrung einer WHILE-Schleif e gem. Figur 
4b Ober mehrere Konfigurationen. Hier ist der Zustand der 
Schleife (0601) ein relevant er Zustand, da dieser die Funktion 
in den nachfolgenden Konfigurationen mafigeblich beeinflufit. 
Die Berechnung erstreckt sich tiber 4 Konfigurationen (0602, 

0603, 0604, 0605) . Zwischen den Konfigurationen werden die Da- 
ten in Speichern (vgl. REG{ } ) abgelegt (0606, 0607). 0607 er- 
setzt dabei ebenfalls 0405. 

Als ein Rekonfigurationskriterium kann der Fiill stand der Spei- 
cher dienen, angedeutet tiber 0606, 0607 : Speicher voll/Ieer 
und/oder 0601, das den Abbruch der Schleife anzeigt. Mit ande- 
ren Worten werden durch den Ftillstand der Speicher Trigger ge- 
neriert (vgl. PACT01, PACT05, PACT08, PACT10), die an die Kon- 
f igurationseinheit gesendet werden und eine Rekonfiguration 
auslSsen. Auch der Zustand der Schleife (0601) kann an die CT 
gesendet werden. Daraufhin kann die CT bei Erreichen des Ab- 
bruchkriteriums die nachfolgenden Algorithmen konf igurieren, 
bzw. ggf. zunachst die restlichen Teile der Schleife (0603, 

0604, 0605) abarbeiten und danach die nachfolgenden Konfigura- 
tionen laden. 
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6. Parallelisierbarkeit: 

Figur 6 zeigt pbtenitieiie Grerfzen der Paraileiisierbarkeit 

auf v; - V 

Sofern die Berechnung der Operanden unabhangig von der Ruck- 
kopplung 0608 ist, kann die Schleife blockweise, d.h. jeweils 
durch Fallen der Speicher 0606/0607 berechnet werden. Damit 
wird ein hoher Grad an Parailelitat erreicht. 

Soferri die Berechnung eines Operanden abhangig von dem Ergeb- 
nis der vorherigen Berechnung 1st, also eine Riickkopplung oder 
dergleichen 0608 in die Berechnung einfliefct, wird das Verfah- 
ren ineff izienter, da jeweils nur ein Operand innerhalb der 
Schleife berechnet werden kann. 

1st der nutzbare ILP (Instruktionslevel Parallelismus) inner- 
halb der Schleife hoch und die Zeit far die Rekonf iguration 
nieder (vgl. PACT02, PACT04, PACT13, PACT17), kann eine auf 
PAEs ausgewalzte Berechnung auf einer VPU weiterhin effizient 
sein. ' 

1st dies nicht der Fall, ist es sinnvoll, die Schleife auf ei- 
ne sequentielle Architektur (vom PA separater Prozessor oder 
Implementierm innerhalb des PA ehtsprechend DE 196 51 075.9- 
53, DE 196 54 846.2-53 und insbesondere DE 199 26 538.0 (Fig. 
5, 11, 16, 17, 23 f 30, 31, 33)) abzubilden. 

Die Analyse der Berechnungszeiten kann entweder im Compiler 
; zur Obersetzungszeit gemafi dem nachfolgenden Abschnitt erfol- 
gen und/ oder empirisch zu der oder einer Laufzeit gemessen 
werden, um eine nachtragliche Optimierung herbeizufOhren, was 
zu einem lernfahigen, insbesondere selbstlernenden Compiler 
ftthrt. 
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Ftir die Erfindung sirid Analyse- urid Parailelisieinarigsverfahreh 
von Bedeutung. 

Verschiedene Verfahren nach dein Stand der Techriik stehen fiir 
die Analyse und Durchfuhrung der Parallelisierung : zur Verftt- 
gung. . : - : : : \ ' * : - : •'=.;•:•*"■: • * - • 

Ein bevorzugtes Verfahren soil im Folgenden beschrieben wer- 
den. 

Abzubildende Funktionen werden durch Graphen dargestellt (vgl. 
PACT13; DE 199 26 538.0) wobei eine Applikation aus beliebig 
vielen unterschiedlichen Funktionen zusammengesetzt sein kann. 
Die Graphen werden auf die in ihnen enthaltene Parallelitat 
untersucht, wobei vorab samtliche Methbden der Opt imierung ; zum 
Einsatz kommen konnen. 

Beispielsweise sollen folgende Untersuchungen durchgefiihrt 
werden: 

6,0,1 ILP (Instruction Level Parallelism) 

ILP driickt aus, welche Befehle zeitgleich ausgeftihrt werden 
konnen (vgl. PAR{}). Eine derartige Analyse wird auf Basis der 
Betrachtung von Abhangigkeiten von Knoten in einem Graphen 
einfach m5glich. Entsprechende Verfahren sind nach deia Stand 
der Technik und in der Mathematik per se hinreichend bekannt, 
es soil beispielsweise auf VLIW-Compiler und Synthesetobls 
verwiesen werden. 

Besondere Beachtung benStigen aber z. B. gegebenenfalls ver- 
schachtelte bedingte Ausftihrungen (IF) , da eine korrekte Aus- 
sage der parallel ausftihrbaren Pfade oftmals kaum oder nicht 
zu tref fen ist, da eine starke Abhangigkeit voro Werteraum der 
einzelnen Parameter besteht, der oftmals nicht oder nur unzu- 
reichend bekannt ist. Auch kann eine exakte Analyse derart 
viel Rechenzeit in Anspruch nehmen, daB sie nicht mehr sinn- 
voll durchftihrbar ist. 
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In derartigen Fallen kann beispielsweise die Analyse durch 
Hlnweise vom Prograihmierer vereinf acht werden urid/oder ies kann 
arthand entsprechender Compiierschatlter defart gearbeitet wer- 
den/ dafi im Zweifelsfall entwqfder von einer ho'hen Paraileil- 
sierbarkelt (ggf . unter Verschwendung von Ressourc^h) oder von 
einer •niedereri Parallelislerbarkeit (ggf - unter: Verschwendung 
von Performance) ausgegangen werden soil. 

Ebenfalls kann in diesen Fallen eine empirische Analyse zur 
Laufzeit durchgefuhrt werden. Nach PACT10, PACT 17 sind Verfah- 
ren bekannt, die zur Laufzeit die Erstellung yon Statistiken 
liber das Programmverhalten erlauben. Derart kann z. B. zu- 
hachst von einer maximalen Parallelislerbarkeit ausgegangen 
werden. Die einzelnen Pfade geben Meldungen an eine Stati- 
stikeinheit (z. B. implement iert in einer CT oder einer ande- 
ren Stufe,vgl. PACT10, PACT17, grundsatzlich konnen aber auch 
Einheiten nach PACT 04 verwenden werden) iiber jeden Durchlauf 
zurttck. Mittels statist ischer Mafinahmen ist nunmehr auswert- 
bar, welche Pfade tatsachlich parallel durchlaufen werden. 
Weiterhin ergibt sich die Moglichkeit, anhand der Daten zur 
Laufzeit zu bewerten, welche Pfade haufig oder : selten oder nie 
parallel durchlaufen werden. Diese Art der Pf admit zungsmeldung 
1st nicht zwingend, aber vqrteilhaft. .. . 

Dementsprechend kann die Ausftihrung bei einem n^chsten Pro- 
grammaufruf optimiert werden. DaB dazu die Statistikinformati- 
bn insbesondere nichtfltichtig. wie auf eine Festpiatte wegge- 
schrieben werden kann, sei erwahnt. Aus PACT22, PACT24 1st be- 
kannt, dafi mehrere Konfigurationen entweder zugleich konfigu- 
riert werden konnen und danach durch Trigger (PACT08) ange- 
steuert werden oder nur eine Untermenge konfiguriert ist und 
die restlichen Konfigurationen bei Bedarf dadurch nachgeladen 
werden, dafi die entsprechenden Trigger an eine Ladeeinheit 
(CT, PACT10) gesendet werden. 

Der im folgenden gebrauchte Wert PAR(p) gibt zur Verdeutli- 
. chung an, welche Parallelitat auf Instruktionsniveau, d. h. 
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wieviel ILP bei einer bestimmten Stufe (p) innerhalb des aus 
der''Fuhktibn''tr^sfb2^ert'en DatenfluBgraphen erreichbar ist 
(Figur 7a) . 

Gleichfaiis bedeutsam ist : Vekt drpkrallelitat ; ( vgl VEC { } ) . 
Vektorparallelitat ist nutzbar, wenn grofiere Datenmengen zu 
verarbeiten sind. In diesem Fall sind lineare Folgen von Ope- 
rationen vektorisierbar, d.h. alle Operationen konnen gleich- 
zeitig Datenverarbeiten, wobei typischerweisejede separate 
Operation ein separates Datenwort bearbeitet. 

Innerhalb vori Schleifen ist dieses Vorgehen teilWeise riicht 
mdglich. Daher sind Analysen und Optimierungen notwendig. 
Beispielsweise kann der Graph einer Funktion durch ein Petri- 
netz ausgedrtickt werden. Petri-Netze besitzen die Eigenschaft, 
dafi die Ergebnisweitergabe von Knot en kontrolliert erfolgt, 
wodurch beispielsweise Schleifen modelliert werden konnen. 
Durch die Rtickkopplung des Ergebnisses in einer Schleif e wird 
der Datendurchsatz bestimmt. Beispiele: 

• Das Ergebnis der Berechnung n wird ftir die Berechnung n+1 

benotigt: Nur eine Berechnung kann innerhalb der Schleif e 
ausgeftthrt werden. 

• Das Ergebnis Mier Berechnung n wird far die Berechnung n+m 

ben5tigt: m-1 Berechnungen kSnnen innerhalb der Schleif e 
ausgeftthrt werden. 

• Das Ergebnis bestimmt den Abbruch der Schleif e f geht aber 

nicht in die Berechnung der Ergebnisse ein: Eine Riick- 
kopplung ist nicht notwendig. Ggf . laufen zwar falsche 
(zuviel) Werte in die Schleif e, jedoch kann die Ausgabe 
der Ergebnisse direkt bei Erreichen der Endbedingung am 
Schleif enende unterbrochen werden. 

Vor der Analyse von Schleifen k5nnen diese nach dem Stand der 
Technik optimiert werden. Beispielsweise konnen bestimmte In- 
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struktionen aus der Schleife herausgezogen werden und vor oder 
nach die Schleife gestellt werden. 

Der im Folgenden zur Verdeutlifchung gebrauchte Wert VEC kann 
den Grad der Vektorisierbarkeit einer Funktion veranschauli- 
cheri. Mit .ahderen Worten zeigt VEC an, wieviele Patenworte/ zur . 
gleich innerhalb einer Menge von Operationen bearbeitet werden 
k5nnen. VEC kann beispielsweise aus der Zahl der ben6tigten 
Rechenwerke f ilr eine Funktion n n0 des und der zugleich innerhalb 
des Vektors ber.echenbaren Paten n^ta berechnet werden, z.B. 
durch VEC = n n0 des / n^ta 

1st eine Funktion beispielsweise auf 5 Rechenwerke abbildbar 
(n n0 des = 5) und in jedem der Rechenwerke konnen zugleich Daten 
bearbeitet werden (ndata = 5) ist VEC = 1 (Figur 7b) . 
1st eine Funktion dagegen beispielsweise auf 5 Rechenwerke ab- 
bildbar (n n0 des = 5) und nur in einem Rechenwerk kdnnen jeweils 
Daten bearbeitet werden, z. B. aufgrund einer Riickkopplung der 
Ergebnisse der Pipeline auf den Eingang (n^ta = 5)> so ist VEC 
* 1/5 (Figur 7c) . - 

VEC kann fiir eine gesamte Funktion und/oder fur Teilausschnit- 
te einer Funktion berechnet werden, Fttr den erfindungsgemSfien 
Compiler kdnnen beide Varianten vorteilhaft sein^ wie generell 
die Bestimmung urid Auswertung von VEC vorteilhaft ist-. 

GemaB Figur 7a wird PAR(p) ftir jede Zeile eines Graphen be- 
stimmt, wie vorteilhaft mSglich. Eine Zeile eines Graphen ist 
dadurch definiert, dafi sie innerhalb einer Takteinheit ausge- 
fuhrt wird. Die Anzahl der Operationen ist von der Implemen- 
tierung der jeweiligen VPD abhangig. 

Entspricht PAR(p) der Anzahl der Knoten in der Zeile p, so 
kennen alle Knoten parallel ausgeftihrt werden. 
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1st PAR(p) Jdeiner, werden bestimmte Knoten nur alternativ 
ausgeffihrfr. Die alternativen Ausfiihrungen jeweils einesKno- 
tens werden in jeweils eiher PAE zusammengefafit . Eihe Selekti- 
onsvorrichtung ermoglicht die/Aktivierung der, dem Status der 
vDatehverarbeiturig entsprechehderi, Aiternative zur Laiif zeit wie 
beispielsweise in PACT08 beschrieben. . 

VEC wird ebenfalls jeder Zeile eines Graphen zugeordnet. 1st 
far eine Zeile VEC = 1, bedeutet dies, daB die Zeile als Pipe- 
linestufe bestehen bleibt. 1st eine Zeile. kleiner. 1> so werden 
alle nachfolgenden Zeilen, die ebenfalls kleiner 1 sind zusam- 
mengefaBt, da ein Pipelining nicht moglich ist. Ehtsprechend 
der Reihenf olge der Operationen werden diese zu einer Sequenz 
zusammengef aBt, die dann in eine PAE konfiguriert wird und zur 
Laufzeit sequent iell abgearbeitet wird. Entsprechende Verfah- 
ren sind beispielsweise aus PCT/DE 97/02949 und/oder PCT/DE 
97/02998 bekannt. 

Durch das beschriebene Verfahren lassen sich durch Gruppierun- 
gen von Sequenzern beliebig komplexe Parallelprozessormodelle 
aufbauen. Insbesondere sind Sequenzerstrukturen zur Abbildung 
von reentrantem Code generierbar . 

Die dazu jeweils notwendigen Synchronisationen konnen bei- 
spielsweise dutch das in PACT1 8 beschriebene TimeStamp- . 
Verfaihren dder bevdrzugt durch das in PACT08 beschriebene 
Triggerverfahren durchgefiihrt werden. 

Werden mehrere Sequenzer oder sequentielle Teile auf ein PA 
abgebildet, ist es aus Leistungsverbrauchsgriinden bevorzugt, 
die Leistung der einzelnen Sequenzer aufeinander abzustiinmen. 
Dies kann besonders bevorzugt derart geschehen, daB die Ar- 
beit sfrequenzen der Sequenzer aneinander angepaBt werden. Aus 
PACT 2 5 und PACT 18 sind beispielsweise Verfahren bekannt, die 
eine individuelle Taktung von einzelnen PAEs oder PAE-Gruppen 
zulassen. 
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Die Frequenz eines Sequenzers kann dabei anhand der Anzahl von 
Zykien bestimrat werden, die' er typischerweise zur Abarbeitung 
der ihm zugewiesenen Fuhktidn /benotigt / 

•Biendtigt er beispieisweise ' 5 Taikt zykien ziir .Abarbeitung seiner: 
Fiifiktibri wahreiid das restliche System genau eihen Taktzyklus. 
benotigt, urn zugewiesene Aufgaben abzuarbeiten, sollte seine 
Taktung 5-raal hoher sein als die Taktung des restlichen Sy- 
stems. Bei einer Vielzahl von Sequenzern sind jeweils unter- 
: schiedliche Taktzyklen mfcglich. Es kann eine Taktvervielfa- 
chung und/oder eine Taktteilung vorgesehen werden. 

Funktionen werden entsprechend des vorgenannten Verfahrens 
partitioniert . Beim Partitionieren werden entsprechend Spei- 
cher far Daten und relevanten Status eingefiigt. Weitere alter- 
native und/oder weitergehende Verfahren sind aus PACT 13 und 
PACT 18 bekannt. 

Manche VPDs bieten nach PACT01, PACTlO f PACT13, PACT17, 
PACT22, PACT24 die MSglichkeit der dif ferentiellen Rekonfigu- 
ration. Diese kann angewendet werden, wenn nur verhaltnismafiig 
wenige Anderungen innerhalb der Anordnung von PAEs bei einer 
Rekonfiguration notwendig werden. Mit anderen Worten werden 
nur die Ver^nderungen einer Konfiguration gegenttber der aktu- 
ellen Konfiguration rekonf iguriert . pie Partitionierung kann . 
in diesem Fall dergestalt sein, daB die auf eine Konfiguration 
folgenden (dif ferentielle) Konfiguration nur die notwendigen 
Rekonfigurationsdaten enthalt und keine vollstandige Konfigu- 
ration darstellt. Der Compiler der vorliegenden Erfindung ist 
bevorzugt dazu ausgebildet, dies zu erkennen und zu unterstiit- 
rzen. 

Das Scheduling der Rekonfiguration kann durch den Status er- 
folgen, der Funktibn(en) an eine Ladeeinheit (CT) meldet, wel- 
che ihrerseits auf Basis des eingehenden Status die nachste 
Konfiguration oder Teilkonfiguration auswahlt und konfigu- 
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riert. Im Detail sind derartige Verfahren aus PACT01, PACT05, 
PACT10 f PACT! 3/ PACT17 bekannt. ' ' ' 

Weitertiin kanndas Scheduling die Meglichkeit des Vorladens 
vbh Kohfiguf at ionen watir end d$± Lauf zeit eirier anderen Konfi- 
guratioh uriterstiitzen; Dabei koiinen mehrere Konf iguratidnen :, V:- 
m6glicherweise auch spekulativ ydrgeladen werden^ d.h. ohne 
daB sichergestellt ist, dafi die Konf igurationen tiberhaupt be- 
notigt werden. Dies ist besonders dann bevorzugt, wenn die CT 
etwa bei langeren, konfigurationsfrei abarbeitbaren Datenstro- 
men zumindest weitgehend unbelastet ist und insbesondere nicht 
oder nur wenig aufgabenbelastet ist. Durch Selektionsmechanis- 
men wie etwa nach DE 197 04 728,9 werden dann zur Laiifzeit die 
zu verwendenden Korif igurationen ausgewShlt ( siehe auch; Bei- 
spiel NLS in PACT22/24) . 

Ebenfalls konnen die lokalen Sequencer durch den Status ihrer 
Datenverarbeitung gesteuert werden, wie etwa aus DE 196 51 
075.9-53, DE 196 54 846.2-53, DE 199 26 538.0 bekannt. Zur 
Durchfiihrung ihrer Rekonf iguration kann ein weiterer abhangi- 
ger Oder unabhangiger Status an die CT gemeldet werden (siehe 
beispielsweise PACT04, LLBACK) * 

Das Vorstehende wird nun mit Bezug auf weitere Figuren be- 
schrieben. Dabei werden im f olgenden f olgende Zeichen zur Ver- 
einfachung der Schreibung verwendet: v oder, a und. 

Figur 8a zeigt die Abbildung des Graphens nach Fig. 7a auf ei- 
ne Gruppe von PAEs bei maximaler erreichbarer Parallelitat. 
SSmtliche Operationen (Instruktion il-il2) sind in einzelne 
PAEs abgebildet. 

Pignr 8b zeigt denaelben Graphen, beispielsweise mit maximaler 
nutzbarer Vektorisierbarkeit . Jedoch sind die Mengen von Ope- 
rationen V2={il, i3}, V3={i4, i5, i6, i7, i8}, V4={i9, ilO, 
ill} nicht parallel par (par({2,3,4})= 1. Damit lassen sich 
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Ressourcen einsparen f indem jeweils eine Menge P2, P3, P4 von 
Operationen einer PAE zugebrdnet wird. Ein Statussignal zu je- 
deiri Datenwort in jeder Stufe wahlt die auszufiihrende Operation 
in der jeweiligen PAE aus . Dief PAEs sind als Pipeline! (Vektor) 
Veirnetzt und jede PAE fiihrt je TaJct eine Operation iiber je- 
weils unterschiedliche Datenwort aus. 

Es ergibt sich folgender Ablauf: 

PAE1 berechnet Daten und gibt diese an PAE2 weiter. Zusainmen 
mit den Daten gibt sie ein Statussignal weiter, das anzeigt f 
ob il Oder 12 ausgefuhrt werden soil. 

PAE 2 berechnet die Daten von PAE1 weiter . Entsprechend des ' 
eirigehenden Statussignals wird die aus zuftihrende Operation 
(il, i2) ausgewahlt und berechnet. Entsprechend der Berechnung 
gibt PAE2 ein Statussignal an PAE3 weiter, das anzeigt f ob (i4 
v i5) v (16 v i7 v i8) ausgeftihrt werden soil. 
PAE3 berechnet die Daten von PAE2 weiter. Entsprechend des 
eingehenden Statussignals wird die auszufiihrende Operation (i4 
v i5) v (i6 v i7 v i8) ausgewahlt und berechnet. Entsprechend 
der Berechnung gibt PAE3 ein Statussignal an PAE4 weiter, das 
anzeigt ob i9 v ilO v ill ausgefuhrt werden soil. 
PAE4 berechnet die Daten von PAE3 weiter. Entsprechend des 
eingehenden Statussignals wird die auszufiihrende Operation 19 
•v iio v ill ausgewahlt und berechnet^ 
PAE5 berechnet die Daten von PAE4 weiter. 

Ein mogliches entsprechendes Verfahren und Hardware, die eine 
besonders gtinstige Umsetzung des beschriebenen erlaubt, ist in 
DE 197 04 728.9 (Figuren 5 und 6) beschrieben; auch PACT 04 und 
PACT10, PACT13 beschreiben allgemeih nutzbare, jedoch aufwen- 
.digere Verfahren. 

Figur 8c zeigt wiederum denselben Graphen. In diesem Beispiel 
ist eine Vektorisierung nicht mdglich, jedoch ist PAR(p) hoch, 
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was bedeutet, dafi innerhalb einer Zeile jeweils eine Vielzahl 
vbn Operationen gleichzeitig ausgefuhrt werden kann. Die 1 
parallel durchfiihrbaren Operationen siiid P2 = {il A i2}, P3 = 
\{i4 a 15 a i6 a i7 a 18}/ . P4 * {i9 a 110 a. ill}. Die PAEs sind 
derart vernetzt, daB sie beiiebige Daten' beliebig untereinsm- 
der austauschen kdnneri. Die einzelnein PAEs ' f tlhren nur darin 
Operationen durch, wenn im entsprechenden Zyklus ein ILP be- 
steht, ansonsten verhalten sie sich neutral (NOP) , wobei ggf. 
Heruntertaktung und/oder eine Takt- und/oder Stromabschaltung 
zur Minimierung' deir Verlustleistung erf olgen kanh. . 
Es 1st dabei f olgender Ablauf vorgesehen: > 

Ira ersten Zyklus arbeitet nur PAE2 und gibt die Daten an PAE2 
und PAE3 weiter. 

Im zweiten Zyklus arbeiten PAE2 und PAE3 parallel und geben 
ihre Daten an PAE1, PAE2, PAE3, PAE4, PAE5 weiter. 
Im dritten Zyklus arbeiten PAE1, PAE2, PAE3, PAE4, PAES und 
geben die Daten an PAE2, PAE3, PAE5 weiter. 

Im vierten Zyklus arbeiten PAE2, PAE3, PAES und geben die Da- 
ten an PAE2 weiter. 

Im fiinften Zyklus arbeitet nur PAE2. 

Die Funktion benStigt somit 5 Zyklen zur Berechnung. Der ent- 
sprechende Sequenzer sollte also mit dem 5-fachen Takt im Ver- 
haltnis zu seiner Dmgebung arbeiten; um eine entsprechende 
Performance zu erzielen. 

Ein mSgliches entsprechendes Verfahren list in PACT02 (Figuren 
19, 20 und 21) beschrieben; auch PACT04 und PACT10, 13 be- 
schreiben allgemein nutzbare, jedoch aufwendigere Verfahren. 
Weitere Verfahren und/oder Hardware sind verwendbar. 

Figur 8d zeigt den Graphen nach Fig. 7a fttr den Fall, daB kei- 
nerliei nutzbare Parallelitat besteht. Zur Berechnung eines Da- 
tenwortes mufi jede Stufe nacheinander durchlaufen werden. In- 
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nerhalb der Stufen wird iramer nur genau einer der Zweige ver- 
arbeitet. 

Die Funktion benotigt ebenf alls 5 Zyiclen zur Berechnung, cyl = 
(il), cy2 - (12 v i3), cy3 - (i4 v 15 v i6 v 17 v 18), cy4 = 
(19 v ilO v ill), cy5 = (il2) . Der entsprechende Sequerizer 
sollte also m±t d&a 5-fachen Takt im Verhaltnis zu seiner Urn- 
gebung arbeiten, urn eine entsprechende Performance zu erzie- 
len. 

Eine derartige Funktion ist beispielsweise ahnlich Fig. 8c 
durch einen einfaclien Sequenzer nach PACT 02 ( Figureii 19,. .20 
und 21)abbildbar. Auch PACT04 xmd PACT10, 13 beschreiben all- 
gemein nutzbare, jedoch aufwendigere Verfahren. 

Die in Figur 8 dargestellten Abbildungen sind beliebig misch^ 
bar und gruppierbar. 

In Figtu: 9a ist beispielsweise dieselbe Funktion dargestellt, 
bei welcher die Pfade (i2 a (i4 v i5) a i9) und (i3 a (16 v i7 
v i8) a (i9 v ilO)) parallel ausfuhrbar sind. (i4 v i5) , i6 v 
i7 v i8), (i9 v ilO) sind jeweils alternativ. Die Funktion ist 
weiterhin vektorisierbar . Damit last sich eine Pipeline auf- 
bauen, in welcher far 3 PAEs (PAE4, PAE5, PAE7) jeweils anhand 
von Status signalen die jeweilig auszuflihrende Funktion be- 
stiinmt ist . 

Figur 9b zeigt ein ahnliches Beispiel, bei dem eine Vektori- 
sierung nicht mdglich ist. Allerdings sind die Pfade 
(il a i2 a (14 v 15) a i9 a 112) und (13 a (i6 v 17 v i8) a 
j (ilO v ill)) parallel.. Damit laBt sich die optimale Perfor- 
mance durch den Einsatz von zwei PAEs erzielen, die bei die 
parallelen Pfade auch parallel abarbeiten. Die Synchronisation 
der PAEs untereinander erfolgt durch Statussignale, die vor- 
zugsweise von PAE1 generiert werden, da diese den Beginn (il) 
und das Ende (il2) der Funktion berechnet. 
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Es soil besonders darauf hingewiesen werden, dafi sich'aus ei- 
ner mehrfachen Anordnung von Sequenzern ein symetrisch paral- 
leles Prdzessormodell <SMP) odfer ahnliche, heute yerwendete 
Mehxprozes^orioaodeile ergeben karinen. 

Weiterhin soil darauf hingewiesen werden, dafi sSmtliche Konfi- 
gurationsregister ftir das Scheduling auch im Hintergrund 
und/oder wahrend der Datenverarbeitung mit neuen Konfiguratio- 
nen geladen werden konnen. 

Es ist dies etwa moglich, wenn die Hardware wie nach DE 196" 51 
075 . $-53 bekahrit auf gebaut ist . Es stehen dann unabhangige 
Speicherbereiche oder Register zur Verfiigung, die unabhangig 
; angesprochen werden konnen. Auf bestimmte Stellen wird durch 
eingehende Trigger gesprungen, ebenfalls kann mittels Sprung- 
befehlen (JMP, CALL/RET), die ggf. auch bedingt durchfOhrbar 
sind gesprungen werden. 

Gemafl DE 196 54 846.2-53 stehen unabhangige Schreib- und Lese 
zeiger zur Verfiigung, wodurch grunds&tzlich eine Unabhangig- 
keit. und .s omit die Moglichkeit des iugriffes im Hintergrund 
gegeben ist. Insbesondere ist es moglich, die Speicher zu seg- 
mentieren, wodurch eihe zusatzliche Unabhangigkeit gegeben 
1st. Mittels Sprungbefehlen (JMP, CALL/RET) , die ggf. auch be- 
dingt durchftihrbar sind, kann gesprungen werden. 

Nach DE 197 04 728.9 sind die einzelnen Register, die durch 
die Trigger gewMhlt werden konnen , grundsatzlich unabhangig 
und erlauben daher eine unabhangige Konf iguration, insbesonde- 
re im Hintergrund. Sprtinge innerhalb der Register sind nicht 
moglich, die Auswahl erfolgt ausschlieBlich tlber die Trigger- 
vektoren. 
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Ein wesentlicher Faktor zur Bewertung der Effizienz von PAR 
und VEC ist die Art der Daten die durch die jeweilige Struktur 
verarbeitet werden. Beispielsweise ist es lohnen eine Struktur 
ausizuwalzeri, also zu pipelined und oder parallelisiereh/ die 
eine grbfie Merige von Daten verarbeitet; wie es z.B. bei Video- 
daten pder Telekomdateri der Fail ist. Struktuiren die wehige 
Daten verarbeiten (z.B. Tastatureingabe, Maus, etc.) lohnen 
sich nicht ausgewalzt zu werden, im Gegenteil sie wttrden nur 
anderen Algorithmen die Ressourcen blockieren. 

Somit wird vorgeschlagen anhand unterschiedlicher Hinweise nur 
die Algorithmen; Strukturen oder Teile von Algorithmen zu par- 
allelisierh und . Vektorisieren, die entsprecliehd grofie Daten- 
mengen Verarbeiten. 

Derartige Hinweise kSnnen beispielsweise sein: 

1. Der Datentyp (Arrays, Streams sollten z.B. aufgrund der ho- 
1 hen Datenmenge eher ausgewalzt werden als z.B. einzelne Zei- 

chen) . 

2. Die Art des Zugriffes (lineare Progrant m abfolgen sollten 
z.B. in Sequenzer abgebildet werden, wahrend Schleifen sich 
z.B. aufgrund der hohen Anzahl von DurchlSufen zum Auswalzen 
lohnen. 

3. Die Art der Quelle und/oder des Ziels (Tastatur und Maus 
haben z.B. eiiie zu geringe Datenrate. urn effizient ausgewalzt 
zu werden, dagegen 1st z.B. die Datenrate bei Netzwerk 
und/oder Video Quellen oder Zielen deutlich hoher) . 

Fur die Analyse kSnnen dabei eine beliebige Menge dieser Hin- 
weise hinzugezogen werden. 
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Zustand, der nur innerhalb ei- 
ner bestiiranten Konf iguration 
relevant ist; 

Zustand, der in mehreren Koh- 
figuratidnen relevant- ist und 
zwischen den Konf igurationen * 
ausgetauscht werden muB; 

relevanter Zustand . Zustand, der innerhalb eines 

Algorithmus zu dessen korrek- 
ter AusfUhrung dessen benotigt 
wird und somit durch den Algo- 
rithmus beschrieben ist und 
davon verwendet wird; 

irrelevanter Zustand Zustand, der far den eigentli- 

chen Algorithmus ohne Bedeu- 
tung ist und auch nicht im Al- 
gorithmus beschrieben ist, der 
jedoch von der ausfiihrenden 
Hardware implementierungsab- . 
hangig benotigt wird 
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1. Verfahren zuA tJbersetzen Hbchsprachen auf rekonfigfu- 
: rierbkre Architekturen/ dadurch gekennzeichnet, dafi eih 

endlicher Automat zur Berechniing. derart aufgebaut. wird, dafi 
ein komplexes kombinatorisches Netz aus einzelnen Funktio- 
nen gebildet wird und dem Netz Speicher zur Speicherung der 
Operanden und Ergebnissen zugeordnet sind. 

2. Verfahren zum Datenbe- und/oder verarbeitung mit einem mul- 
tidimensionaleh Feld mit rekonfigurierbaren ALUs, dadurch 
gekennzeichnet , dafi ein Hochsprachencbde yorgesehen und 
derart tibersetzt wird, dafi ein endlicher Automat zur Be- 
rechnung aufgebaut wird, wobei ein komplexes kombinatori- 
sches Netz aus einzelnen Funktionen gebildet und dem Netz 
Speicher zur Speicherung der Operanden und/oder Ergebnisse 

zugeordnet werden. 

» ^ . 

3. Verfahren nach einem der vorhergehenden Ansp ruche, dadurch 
gekennzeichnet, dafi das komplexe kombinatorische Netz so 
aufgebaut und/oder zerlegt wird, dafi die PAE-Matrix mSg- 
lichst lange ohne Rekonf iguration betrieben wird. 

4 . Verfahren nach dem vorhergehenden Anspruch , dadurch gekenn- 
zeichnet, dafi komplexe Instruktionen bestimmt werden, urn 
das komplexe kombinatorische Netz so aufzubauen und/oder zu 
zerlegen, dafi die PAE-Matrix 'mSglichst lange ohne Rekonf i- 
guration betrieben wird. 

5. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, dafi ein endlicher Automat direkt aus impe- 
rativem Quelltext aufgebaut wird. 
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6. Verfahren nach einem der vorhergehenden Ansprttche, dadurch 
gekenrizeichnet, daB ein eridlicher' Automat aus ah grobgraiiu- 
lare Logikkreise und/oder an vorhandene feingranuiare Ele- 
mente (FPGA-Zellen in der /VPU, statemachines etc.) angepaB- 
te Operationen aufgebaut wird, insbesondere ausschliefilich 

.". an- seiche. ' - v 

7. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, daB ein endlicher Automat dann in Konfigu- 
rationen zerlegt wird. . 

8. Verfahren nach einem der vorhergehenden Ansprttche, dadurch 
gekehrizeichnet , daB generiert e Konf i^urat ibnen succesive 
auf die PAE-Matrix abgebildet werden und Arbeitsdaten 
und/oder Zustande, die zwischen den Konf igurationen zu 
ttbertragen sind, in Speicher abgelegt werden. 

9. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daB der Speicher vom Compiler bestimmt bezie- 
hungsweise vorgesehen wird. 

10. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daB wahrend einer Konf iguration Daten aus einer 
VPU externen. Quelle und/od^r einem internen Speicher yerar- 
beitet und an eine externe Queile und/oder einen internen 
Speicher geschrieben werden. 

11. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daB ein Speicher fttr einen gesamten Daten- 
satz vorgesehen wird, der umfangreicher als ein einzelnes 
Datenwort ist. 

12. Verfahren nach einem der vorhergehenden Ansprttche, dadurch 
gekennzeichnet, daB bei Verarbeitung einer ablaufenden Kon 
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figuration Daten compilerbestimmt in die Speicher abgelegt 
werden. 

13T Verfahren nach einem der vbrhergeheriden Anspructie, dadurch 
gekennzeichnet, daB ein Speicher far Operanden, ein Spei- 
^h6r;ftir Ergebhiss 

und/oder Vergleichen-Anweisungen, also Bedingungen wie z.B. 
IF, CASE/ Schleifen (WHILE, FOR, REPEAT) sowie optionalen 
Adressgenerator (en) zur Ansteuerung der Speicher mit dem 
\ Automated vbrgesehen werden. 

14. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daB ZustSndeh wie er f orderlich Speicher zu- 
geordnet werden, und hierbei zwischen algorithmisch rele- 
vanten und irrelevanten Zustanden unterschieden wird, ins- 
besondere solchen relevanten Zustanden, die innerhalb des 
Algorithmus notwendig um dessen korrekte Funktion zu be- 
schreiben und solchen irrelevante Zustande, die durch die 

" verwendete Hardware und/oder die gewahlte Abbildung oder 
aus anderen sekundaren Griinden entstehen. 

15. Verfahren nach einem der vorhergehenden Ansprtlche, dadurch 
gekennzeichnet, daB Load/Store Operationen unter Vorsehen 
einer externen Adressierung, also des Datent transfers mit 
externen Baugrupperi und einer interne Adressierung, also 
die Datentransfers zwischen PAEs, i.b. zwischen RAM-PAEs 
und ALD-PAEs vorgesehen werden. 

16. Verfahren nach einem der vorhergehenden Ansprtlche, dadurch 
gekennzeichnet, daB bei der Datenverarbeitung eine erste 
Konfiguration entfernt wird und die zu sichernden Daten in 
entsprechenden Speichern (REG) (Speicher, Register, zahler 
etc) verbleiben. 
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17. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
: gekennzeichnet, daB die erste Konfiguration wieder geladen 

wird und auf die zuvor gesicherterten, ihr zugeordnete Da- 
ten zugreift. 

18. Verfahren nach einem; der vorhergehenden Ahsprttche, dadurch 
gekennzeichnet, daB fur den Zugriff auf zuvor gesicherterte 
Daten eine zweite Konfiguration geladen wird, die die REG 
in geeigneter Weise und definierter Reihenfolge mit einem 
oder mehreren globaien Speicher (n) verbindet , insbesondere> 
um unter Verwendung von Adressgeneratoren auf den/die glo- 
baien Speicher zuzugreif en, wobei der Adressgenerator die 
Adressen fur den/die gibbalen Speicher (n) bevorzugt derart 
generiert, dass die beschriebenen Speicherbereiche (PUSHA- 
REA) der entfernten ersten Konfiguration eindeutig zugeord- 
net werden konnen. 

19. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daB automatisch Transformation zur Repre- 
sentation der Parallelisier- bzw. Vektorisierbarkeit (Par- 
Vec-Trans format ion) durchgefvihrt werden und/ oder VEC und 
PAR-Anteile als Petri-Netz ausgestaltet werden, um wie be- 
vorzugt die Weiterverarbeitung nach kompletter Verarbeitung 

•"• .. der jeweiligen Inhalte zu steuern. 

20. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, daB 

arithmetisch/logische Befehle direkt in das kombinatorische 
Netz abgebildet werden und/oder 

Sprtinge (jump/Call) entweder direkt in das kombinatorische 
Netz ausgewalzt und/oder durch Rekonfiguration realisiert 
werden und/oder 

Bedingungen und Kontrollf luBbefehle (if, etc) entweder im 
kombinatorischen Netz vollstandig aufgelost und /oder bear- 
beitet werden und/oder an eine tibergeordnete Konfigurati- 
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onseinheit weitergeleitet werden, die sodann entsprechend 
des entstandenen Status ieine : Reconfiguration durchfiihrt 
und/oder 

Load/ Store-Operationen in /Separate korif igiiratiorien abgebii- 
det und/bdef durch Adfessgerieratbren realisiert werden, die 
internen Speicher (REG{ }) M ex- 
terne Speicher schreiben und/oder diese von externen Spei- 
chern und/oder Peripherie laden und/oder 
Register-Move-Operationen im kombinatorischen Netz durch 
Busse zwischen den internen Speichern (REG{ } ) realisiert 
werden und/oder 

Push/Pop-Operationen durch separate Konfigurationen reali- 
siert werden, die bestimmte interne Register im kombinato- 
rischen Netz und/oder die internen Speicher (REG{ } ) mittels 
Adressgeneratoren in externe Speicher schreiben oder aus 
externen Speichern lesen und die bevorzugt vor oder nach 
den eigentlichen datenverarbeitenden Konfigurationen ausge- 
fiihrt werden. 
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